JP7256935B2

JP7256935B2 - 辞書作成装置及び辞書作成方法

Info

Publication number: JP7256935B2
Application number: JP2019159570A
Authority: JP
Inventors: 祐治小島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2023-04-13
Anticipated expiration: 2039-09-02
Also published as: JP2021039488A; US11144712B2; US20210064814A1

Description

本発明は、辞書作成装置及び辞書作成方法に関する。

装置のサポート業務を行う場合に、装置を導入した顧客からの問い合わせに対して適切な回答を行うために、装置から出力されたログを解析する技術が知られている。近年、このような技術において、機械学習を利用することがある。機械学習においては、例えば、ログから特徴的なフレーズ（文字列）を抽出し、抽出結果から回答を推論する推論モデルを作成する。この特徴的なフレーズの一部は、辞書に登録されており、当該辞書が適切に作成されているか否かが、推論モデルの推論精度に大きく影響することが知られている。

特開２０１６－１３４１２４号公報特開平１１－１５４１６０号公報

辞書に登録するフレーズは、各装置のログを特徴づける重要なフレーズであり、予め担当者がピックアップしているが、装置ごとに異なるため、装置ごとに辞書に登録する内容をカスタマイズする必要がある。

したがって、新たにサポートする装置が追加された場合、当該装置の辞書を作成するのに多大な工数や時間を要するおそれがある。また、サポート業務をある程度行った後でなければ、辞書に登録すべきフレーズがわからない場合もある。

１つの側面では、本発明は、装置のログから抽出すべき文字列を登録する辞書を簡易に作成することが可能な辞書作成装置及び辞書作成方法を提供することを目的とする。

一つの態様では、辞書作成装置は、第１の装置のログから抽出する文字列を登録する第１の辞書から、一部に共通部分を有する複数の文字列を抽出して、抽出した前記複数の文字列の種類を特定する第１特定部と、前記第１の装置のログから前記共通部分を含む文字列を抽出し、抽出した文字列の種類を特定する第２特定部と、前記第２特定部が特定した文字列の種類に対して、前記第１特定部が特定した文字列の種類が限定的であるか判断する第１判断部と、前記第１判断部の判断の結果、限定的であった場合に、前記第１の装置とは異なる第２の装置のログから一部に前記共通部分を含む文字列を抽出し、抽出した文字列の種類を特定するとともに、特定した該文字列の種類と、前記第２特定部が特定した文字列の種類との一致度が所定以上かを判断する第２判断部と、前記一致度が所定以上の場合に、前記第１特定部が抽出した前記複数の文字列を、前記第２の装置のログから抽出する文字列を登録する第２の辞書に含める、辞書編集部と、を備えている。

装置のログから抽出すべき文字列を登録する辞書を簡易に作成することができる。

一実施形態に係る辞書作成装置の利用シーンを概略的に示す図である。サポート業務支援装置によるログの解析方法の一例を示す図である。辞書作成装置のハードウェア構成を示す図である。辞書作成装置の機能ブロック図である。辞書作成装置の処理の概要を示す図である。辞書作成装置の全体処理を示すフローチャートである。図６のステップＳ１０の詳細処理を示すフローチャートである。図６のステップＳ１４の詳細処理を示すフローチャートである。図９（ａ）は、既存装置の辞書の一例を示す図であり、図９（ｂ）は、処理対象を示す図である。図１０（ａ）～図１０（ｄ）は、図６のステップＳ１０の処理を説明するための図である。図１１（ａ）は、既存装置のログの一例を示す図であり、図１１（ｂ）は、既存装置のログから抽出されたフレーズを示す図である。既存装置のログにおいて特定された可変部に対して、既存装置の辞書において特定された可変部が絞り込まれている状態を説明するための図である。既存装置のログにおいて特定された可変部に対して、既存装置の辞書において特定された可変部が絞り込まれていない状態を説明するための図である。図１４（ａ）は、既存装置のログにおいて特定された可変部に対して、既存装置の辞書において特定された可変部が絞り込まれていない状態の別例を示す図であり、図１４（ｂ）は、絞り込まれている状態の別例を示す図である。図１５（ａ）～図１５（ｄ）は、一致度が閾値以上である場合の例を示す図である。図１６（ａ）、図１６（ｂ）は、一致度が閾値未満である場合の例を示す図であり、図１６（ｃ）は、選択された固定部に対応する可変部がワイルドカードである場合において新規装置の辞書に登録されるフレーズを示す図である。

以下、一実施形態に係る辞書作成装置について、図１～図１６に基づいて詳細に説明する。

図１には、本実施形態の辞書作成装置１０の利用シーンが概略的に示されている。図１に示すように、本実施形態においては、サポートセンターの担当者は、顧客に導入した装置（例えばネットワーク装置）に関する顧客からの問い合わせを受け付けると、適切な回答を行うためにサポート業務支援装置を利用する。このサポート業務支援装置に対して、辞書作成装置１０は接続されている。

顧客は、ネットワーク装置に不具合等が発生した場合に、ネットワーク装置から出力されるログをサポートセンターに送信することにより、不具合に対する問い合わせを行う。サポートセンターの担当者は、受信したログをサポート業務支援装置に入力し、解析することで、得られた回答パターンを参考にして、顧客に対して回答を行う。ここで、辞書作成装置１０は、ネットワーク装置から出力されるログを事前に取得し、サポート業務支援装置が解析に用いる辞書を作成し、提供する。

図２は、サポート業務支援装置によるログの解析方法の一例を示す図である。本実施形態では、サポート業務支援装置は、機械学習を利用してログを解析し、回答パターンを出力する。機械学習においては、前処理として、過去の問い合わせログから多数のフレーズ（文字列）を抽出し、各ログにおけるフレーズ（Word_1、Word_2、…Word_n）ごとのベクトル値を算出する。このベクトル値は、例えば、問い合せログに含まれる各フレーズの出現回数のカウント値などである。このとき、問い合わせログから抽出するフレーズは、各ネットワーク装置のログを特徴づける重要なフレーズであり、その一部の強制的に抽出するフレーズが辞書作成装置１０により作成された辞書に格納されている。辞書に格納されているフレーズは、例えば、ある回答パターンに対応するログだけに含まれているフレーズなどである。そして、図２の表Ａに示すように、各問い合わせログの各フレーズのベクトル値と、回答パターン（ラベル）の番号とを対応付け、これに基づいて、推論モデルを作成する。

一方、新規問い合わせログをサポートセンターの担当者が入力すると、過去の問い合わせログと同様に、前処理として、新規問い合わせログから多数のフレーズを抽出してベクトル値を算出し、算出したベクトル値を推論モデルに入力する。この結果、新規問い合わせログに対応する回答パターンの候補が確信度の値とともに出力される（図２の表Ｂ参照）。

サポートセンターの担当者は、表Ｂを参照することで、適切な回答パターンを選択し、顧客の問い合わせに対する回答を行うことができる。

ところで、推論モデルが作成されていない新たなネットワーク装置（新規装置）をサポート対象とする場合には、新規装置の辞書を新たに作成しなおす必要がある。この作業を担当者が行うこととすると、多大な工数と時間を要するおそれがある。そこで、本実施形態においては、辞書作成装置１０は、既存装置（既にサポート対象となっている装置）のサポートに利用する辞書（第１の辞書）を用いて、新規装置のサポートに利用する辞書（第２の辞書）を作成する。

なお、新規装置の辞書を作成する場合の既存装置としては、新規装置と同一ベンダであるなど、新規装置と類似する装置を採用することができる。これにより、新規装置の辞書をより精度良く作成できる可能性がある。ただし、これに限らず、既存装置としては、新規装置に関係なく、種々の既存装置を採用してもよい。

以下、辞書作成装置１０について、詳細に説明する。図３には、辞書作成装置１０のハードウェア構成が示されている。辞書作成装置１０は、ＣＰＵ（Central Processing Unit）９０、ＲＯＭ（Read Only Memory）９２、ＲＡＭ（Random Access Memory）９４、記憶部（ここではＨＤＤ（Hard Disk Drive））９６、ネットワークインタフェース９７、表示部９３、入力部９５、及び可搬型記憶媒体用ドライブ９９等を備えている。これら辞書作成装置１０の構成各部は、バス９８に接続されている。辞書作成装置１０では、ＲＯＭ９２あるいはＨＤＤ９６に格納されているプログラム（辞書作成プログラムを含む）、或いは可搬型記憶媒体用ドライブ９９が可搬型記憶媒体９１から読み取ったプログラムをＣＰＵ９０が実行することにより、図４に示す、各部の機能が実現される。なお、図４の各部の機能は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

図４には、辞書作成装置１０の機能ブロック図が示されている。辞書作成装置１０においては、ＣＰＵ９０がプログラムを実行することにより、第１抽出部２０、第２抽出部２２、第１判断部としての絞り込み判断部２４、第３抽出部２６、一致度判定部２８、辞書編集部としての登録フレーズ決定部３０、としての機能が実現されている。以下、辞書作成装置１０の処理の概要を示す図５を参照しつつ、辞書作成装置１０の各部の機能について説明する。

第１抽出部２０は、既存装置の辞書から、一部が共通するフレーズを抽出してグループ化し（図５のステップＳ１００）、抽出したフレーズの共通部分（固定部と呼ぶ）と、共通しない部分（可変部と呼ぶ）とに分ける（ステップＳ１１０）。以下、この固定部と可変部に分ける処理を「整形」と呼ぶ。なお、図５では、固定部（HARDWARE FAULT）を有するフレーズのグループのみを図示しているが、第１抽出部２０は、既存装置の辞書から、一部が共通するフレーズのグループを全て抽出して、整形する。

第２抽出部２２は、第１抽出部２０が抽出したフレーズの固定部を含むフレーズを既存装置のログから抽出してグループ化し、整形する（ステップＳ１２０）。なお、図５においては、固定部（HARDWARE FAULT）を有するフレーズのグループのみを図示している。

絞り込み判断部２４は、第２抽出部２２が抽出したある固定部（例えば「HARDWARE FAULT」）に対応する可変部の種類（バリエーション）を特定する。また、絞り込み判断部２４は、第１抽出部２０が抽出したある固定部（例えば「HARDWARE FAULT」）に対応する可変部の種類（バリエーション）を特定する。そして、それぞれの可変部の種類を参照して、既存装置の辞書において特定された可変部の種類が、既存装置のログにおいて特定された可変部の種類に対して絞り込まれた状態であるかを判断する（ステップＳ１３０）。すなわち、図５の例では、絞り込み判断部２４は、符号Ｆ２で示す可変部が、符号Ｆ１で示す可変部の全てを含み、かつ、完全一致していない場合に、絞り込まれた状態であると判断する。ここで、既存装置の辞書においてフレーズが絞り込まれていることは、ログに存在するフレーズのうち、特徴的なフレーズのみが辞書に登録されている可能性が高いことを意味する。

第３抽出部２６は、絞り込み判断部２４により、絞り込まれた状態であると判断された場合に、新規装置のログから固定部（例えば、「HARDWARE FAULT」）を含むフレーズを既存装置のログから抽出して、整形する（ステップＳ１４０）。

一致度判定部２８は、第２抽出部２２が抽出したフレーズの可変部の種類（Ｆ２）と、第３抽出部２６が抽出したフレーズの可変部の種類（Ｆ３）との一致度（一致割合）を判定する（ステップＳ１５０）。なお、一致度の詳細については、後述する。

登録フレーズ決定部３０は、絞り込み判断部２４の判断結果と、一致度判定部２８の判定結果と、に基づいて、新規装置の辞書に登録するフレーズを決定する（ステップＳ１６０）。登録フレーズ決定部３０の処理の詳細については後述する。

（辞書作成装置１０の処理について）
以下、図６～図８のフローチャートに沿って、その他図面を適宜参照しつつ、辞書作成装置１０の処理について詳細に説明する。図６は、辞書作成装置１０の全体処理を示すフローチャートであり、図７は、図６のステップＳ１０の詳細処理を示すフローチャートであり、図８は、図６のステップＳ１４の詳細処理を示すフローチャートである。

図６の処理においては、まず、ステップＳ１０において、第１抽出部２０が、既存装置の辞書からフレーズを抽出し、整形する処理を実行する。このステップＳ１０においては、具体的には、図７のフローチャートに沿った処理を実行する。

（ステップＳ１０の詳細処理）
図７の処理では、まずステップＳ４０において、第１抽出部２０が、基点と比較対象を設定する。例えば、既存装置の辞書が図９（ａ）に示すような１１個のフレーズを有していたとする。この場合、第１抽出部２０は、図９（ｂ）に示すように、既存装置の辞書全体を処理対象とし、最初のフレーズ（１番のフレーズ）を基点として設定し、残りの２番～１１番のフレーズを比較対象として設定する。

次いで、ステップＳ４２では、第１抽出部２０が、基点のフレーズと各比較対象のフレーズを比較する。この場合、第１抽出部２０は、単語単位で、基点のフレーズに含まれる単語と一致している単語と、一致していない単語を判別する。

そして、ステップＳ４４では、第１抽出部２０が、一致語の位置と不一致語の位置のパターンが同じ比較対象と、基点をグループ化する。例えば、図９（ｂ）の例では、基点と比較対象１～６とが、一致語（HARDWARE FAULT）が１単語目と２単語目で、不一致語が３単語目であり、一致語及び不一致語の位置のパターンが同じである。したがって、第１抽出部２０は、これらのフレーズを１つのグループとする。

次いで、ステップＳ４６では、第１抽出部２０が、グループに含まれる各フレーズの一致語（HARDWARE FAULT）を固定部、不一致語（HARDWARE FAULT以外）を可変部とすることで、フレーズを整形する。図１０（ａ）には、基点と比較対象１～６とを整形した状態（抽出フレーズ（整形後））が示されている。

次いで、ステップＳ４８では、第１抽出部２０が、グループ化したものを処理対象から除外する。この場合、処理対象は、図９（ａ）の既存装置の辞書から図１０（ａ）の抽出されたフレーズを除いた、図１０（ｂ）に示すものになる。

次いで、ステップＳ５０では、第１抽出部２０が、処理対象が残っているか否かを判断する。このステップＳ５０の判断が肯定された場合には、ステップＳ４０に戻る。その後、第１抽出部２０は、図１０（ｂ）の処理対象に対して、基点と比較対象１、２、３を設定し（Ｓ４０）、基点と比較対象１、２とをグループ化し（Ｓ４４）、整形する（Ｓ４６）。これにより、図１０（ｃ）に示すような抽出フレーズ（整形後）が得られることになる。

その後は、処理対象からグループ化されたフレーズが除外されるが、処理対象には、「Service Level * has occurred with core」が残っているため、ステップＳ５０の判断が肯定され、ステップＳ４０に戻る。その後、ステップＳ４０～Ｓ５０を更に実行することで、図１０（ｄ）に示すような抽出フレーズ（整形後）が得られる。なお、「Service Level * has occurred with core」には、ワイルドカード（任意の文字列）を示す「＊」が含まれている。このような場合には、ワイルドカード（＊）を不一致語（可変部）とし、それ以外を一致語（固定部）とする。その後、ステップＳ５０の判断が否定されると、図６のステップＳ１２に移行する。

図６に戻り、ステップＳ１２に移行すると、絞り込み判断部２４が、ステップＳ１０で得られたグループ（抽出フレーズ（整形後））の中から固定部を１つ選択する。ここでは、絞り込み判断部２４は、図１０（ａ）、図１０（ｃ）、図１０（ｄ）の中から固定部「HARDWARE FAULT」を選択したものとする。

次いで、ステップＳ１４では、絞り込み判断部２４及び第２抽出部２２が、選択された固定部に関し、絞り込み、未絞り込みを確認する処理を実行する。このステップＳ１４では、具体的には、図８のフローチャートに沿った処理を実行する。

（ステップＳ１４の詳細処理）
図８の処理では、まず、ステップＳ６０において、選択された固定部に対応する可変部がワイルドカードであるか否かを判断する。このステップＳ６０の判断が否定されると、ステップＳ６１に移行する。

ステップＳ６１に移行すると、絞り込み判断部２４は、既存装置の辞書（図９（ａ））において、選択された固定部（HARDWARE FAULT）に対応する可変部の種類（バリエーション）を特定する。ここでは、絞り込み判断部２４は、図１０（ａ）に示されている７種類（（I/OMod-EX）、(MDirAgnt 100)、…、(PRB)）を特定する。なお、ここで特定される７種類は、既存装置の辞書から抽出されたフレーズ（図１０（ａ））の種類数であるともいえる。

次いで、ステップＳ６２では、第２抽出部２２が、既存装置のログにおいて、選択された固定部（HARDWARE FAULT）に対応するフレーズを抽出する。また、絞り込み判断部２４が、可変部の種類（バリエーション）を特定する。より具体的には、第２抽出部２２は、図１１（ａ）に示すような既存装置のログを準備する。なお、既存装置のログは、顧客から問い合わせがあった際に送付されたログである。そして、第２抽出部２２は、既存装置のログから、選択された固定部（HARDWARE FAULT）を含むフレーズを抽出し、図１１（ｂ）に示すように、固定部と可変部に分ける（整形する）。図１１（ｂ）の例では、絞り込み判断部２４は、可変部の種類として８種類（（I/OMod-EX）、(MDirAgnt 100)、…、(PRB)、(YMZ)）を特定する。なお、ここで特定された８種類は、既存装置のログから抽出されたフレーズ（図１１（ｂ））の種類数であるともいえる。

次いで、ステップＳ６４では、絞り込み判断部２４が、既存装置の辞書において特定された可変部の種類（図１０（ａ））と、既存装置のログにおいて特定された可変部の種類（図１１（ｂ））と、を比較する。この比較においては、既存装置の辞書において特定された可変部の種類が、既存装置のログにおいて特定された可変部の種類に対して限定的であるかを確認する。ここで、限定的とは、既存装置の辞書において特定された可変部それぞれが、既存装置のログにおいて特定された可変部に含まれており、かつ、完全一致ではないことを意味する。

次いで、ステップＳ６６では、絞り込み判断部２４が、限定的か否かを判断する。図１０（ａ）と図１１（ｂ）の例では、図１２に示すように、既存装置の辞書において特定された可変部（８種類）に、既存装置のログにおいて特定された可変部（７種類）の全てと、それ以外の可変部も含まれているため、限定的であると判断される。この場合、図８のステップＳ６６の判断は肯定され、ステップＳ６８に移行する。

ステップＳ６８に移行すると、絞り込み判断部２４は、絞り込まれていると判断し、図８の全処理を終了し、図６のステップＳ１６に移行する。

一方、ステップＳ６６の判断が否定された場合には、ステップＳ７０に移行する。例えば、図１３の下段に示すように、既存装置のログにおいて特定された可変部が７種類であった場合に、図１３の上段に示すように、既存装置の辞書において特定された可変部が７種類であり、完全一致していたとする。この場合には、限定的でないため、ステップＳ６６の判断が否定され、ステップＳ７０に移行し、絞り込み判断部２４は、絞り込みされていないと判断する。その後は、図６のステップＳ１６に移行する。

なお、例えば、図１４（ａ）の左上図に示すように、固定部として「Service Level、has occurred with core」が選択され、既存装置の辞書から２種類のフレーズが抽出されたとする。また、既存装置のログから、選択された固定部「Service Level、has occurred with core」を含むフレーズとして、図１４（ａ）の右下図に示す２種類のフレーズが抽出されたとする。このような場合には、図１４（ａ）の左上図と右下図とにおいて、可変部の種類が完全一致しているため、既存装置の辞書は絞り込まれていないと判断される（Ｓ７０）。一方、図１４（ｂ）の左上図に示すように、固定部として「Service Level、has occurred with core」が選択され、既存装置の辞書から１種類のフレーズが抽出されたとする。また、既存装置のログから、選択された固定部「Service Level、has occurred with core」を含むフレーズとして、図１４（ｂ）の右下図に示す２種類のフレーズが抽出されたとする。このような場合には、既存装置の辞書は、絞り込まれていると判断される（Ｓ６８）。

ところで、図６のステップＳ１２において、固定部として、図１０（ｄ）の固定部「Service Level、has occurred with core」が選択されたとする。この場合、可変部がワイルドカードであるので、図８の処理においては、ステップＳ６０の判断が肯定され、ステップＳ６１～Ｓ６６の処理・判断を経ずに、ステップＳ７０に移行する。ステップＳ７０に移行すると、絞り込み判断部２４は、既存装置の辞書は絞り込まれていないと判断する。

図６に戻り、ステップＳ１６に移行すると、絞り込み判断部２４は、絞り込まれているか否かを判断する。このステップＳ１６の判断が肯定されると、ステップＳ１８に移行する。

ステップＳ１８に移行した場合、第３抽出部２６は、選択された固定部（HARDWARE FAULT）に対応するフレーズを新規装置のログから抽出するとともに、固定部と可変部に分けて整形する。この場合、第３抽出部２６は、新規装置のログにおいて「HARDWARE FAULT」を含むフレーズを検索する。例えば、新規装置のログから抽出されたフレーズが、図１５（ａ）に示すようなフレーズであったとする。

次いで、ステップＳ２０では、一致度判定部２８が、新規装置のログから、選択された固定部を含むフレーズが抽出されたか否かを判断する。図１５（ａ）のようにフレーズが１つでも抽出された場合には、ステップＳ２０の判断が肯定され、ステップＳ２２に移行する。

ステップＳ２２に移行すると、一致度判定部２８は、新規装置のログから抽出されたフレーズ（図１５（ａ））と、既存装置のログから抽出されたフレーズ（図１５（ｂ）参照）と、の一致度を算出する。具体的には、一致度判定部２８は、既存装置のログから抽出されたフレーズ（図１５（ｂ））と、新規装置のログから抽出されたフレーズ（図１５（ａ））を用いて、図１５（ｃ）のような表を作成する。ここで、図１５（ｃ）の表には、図１５（ａ）、図１５（ｂ）の全フレーズ（固定部と可変部）が列挙されており、それぞれのフレーズが既存装置のログや新規装置のログから抽出されたかが「有」／「無」にて示されている。一致度判定部２８は、この図１５（ｃ）の表から、全フレーズにおける既存装置のログと新規装置のログの両方から抽出されたフレーズの割合を「一致度」として求める。図１５（ｃ）の例では、抽出された全フレーズ数に対する、既存装置のログの欄に「有」が格納され、新規装置のログの欄に「有」が格納されているフレーズ数の割合（一致数／全フレーズ数＝６／９≒０．６７）を求め、一致度とする。

次いで、ステップＳ２４では、一致度判定部２８が、一致度が閾値以上であるか否かを判断する。例えば、閾値が０．６であるとすると、図１５（ｃ）の例では、ステップＳ２４の判断は肯定され、ステップＳ２６に移行する。なお、ステップＳ２４においては、既存装置における絞り込みが新規装置でも有効か否かを判断していると言える。

ステップＳ２６に移行した場合、既存装置のログにおいて特定された可変部のバリエーションが新規装置のログにおいて特定された可変部のバリエーションとほぼ同じと見做せる。この場合、新規装置においても既存装置と同じ絞り込みルールを用いることが有効であると考えられる。したがって、ステップＳ２６においては、登録フレーズ決定部３０は、既存装置の辞書のうち選択されている固定部（HARDWARE FAULT）を有するフレーズを新規装置の辞書にそのまま流用して登録する（図１５（ｄ）参照）。その後は、ステップＳ３２に移行する。

一方、図１６（ａ）には、一致度が閾値未満になる例が示されている。図１６（ａ）の例では、新規装置のログに含まれるフレーズの有無と、既存装置のログに含まれるフレーズの有無があまり一致していない。図１６（ａ）において、図１５（ｃ）と同様に一致度を算出すると、一致度＝４／１１≒０．３６となり、閾値＝０．６未満となる。このような場合には、ステップＳ２４の判断が否定され、ステップＳ３０に移行する。ステップＳ３０に移行した場合、既存装置のログにおいて特定された可変部のバリエーションが新規装置のログにおいて特定された可変部のバリエーションと大きく異なると見做せるので、既存装置と同じ絞り込みルールを用いることはできない。したがって、ステップＳ３０においては、登録フレーズ決定部３０は、図１６（ｂ）に示すように可変部をワイルドカード（＊）指定（任意の文字列）にして新規装置の辞書に登録する。すなわち、固定部（HARDWARE FAULT）を有するフレーズの全てを抽出するという情報を新規装置の辞書に登録する。その後は、ステップＳ３２に移行する。

ところで、ステップＳ１６の判断が否定されたとき、すなわち、既存装置の辞書から抽出されたフレーズが、既存装置のログから抽出されたフレーズに対して絞り込まれていなかった場合にも、登録フレーズ決定部３０は、ステップＳ３０に移行する。この場合にも、登録フレーズ決定部３０は、図１６（ｂ）に示すように可変部をワイルドカード指定にして新規装置の辞書に登録する。なお、ステップＳ１６の判断が否定される場合には、図１０（ｄ）のような、既存装置の辞書から抽出されたフレーズの可変部がワイルドカードである場合も含まれる。この場合には、登録フレーズ決定部３０は、ステップＳ３０において、図１６（ｃ）に示すように、既存装置の辞書から抽出されたフレーズそのものを新規装置の辞書に登録する。

また、図６の処理においてステップＳ２０の判断が否定された場合、すなわち、新規装置のログから、選択された固定部（HARDWARE FAULT）を含むフレーズが抽出されなかった場合には、登録フレーズ決定部３０は、ステップＳ２８に移行する。ステップＳ２８に移行した場合、登録フレーズ決定部３０は、選択された固定部（HARDWARE FAULT）を有するフレーズを新規装置の辞書には登録しないこととする。その後は、ステップＳ３２に移行する。

ステップＳ３２に移行すると、絞り込み判断部２４は、全ての固定部を選択したか否かを判断する。このステップＳ３２の判断が否定された場合には、ステップＳ１２に戻り、ステップＳ３２の判断が肯定されるまで、上述したステップＳ１２～Ｓ３２の処理が繰り返し実行されることになる。そして、ステップＳ３２の判断が肯定されると、図６の全処理が終了する。

これまでの説明からわかるように、本実施形態では、第１抽出部２０と絞り込み判断部２４とにより、既存装置の辞書からフレーズを抽出して、抽出したフレーズの種類（可変部の種類）を特定する第１特定部としての機能が実現されている。また、第２抽出部２２と絞り込み判断部２４とにより、既存装置のログからフレーズを抽出し、抽出したフレーズの種類（可変部の種類）を特定する第２特定部としての機能が実現されている。更に、第３抽出部２６と一致度判定部２８とにより、新規装置のログからフレーズを抽出して、抽出したフレーズの種類（可変部の種類）を特定するとともに、特定した種類と、既存装置のログから抽出されたフレーズの種類（可変部の種類）との一致度が所定以上かを判断する第２判断部としての機能が実現されている。

以上、詳細に説明したように、本実施形態によると、第１抽出部２０は、既存装置のログから抽出するフレーズを登録する辞書（既存装置の辞書）から、一部が共通する複数のフレーズを抽出し（Ｓ１０）、絞り込み判断部２４は、共通する部分（固定部）以外の可変部の種類を特定する（Ｓ６１）。また、第２抽出部２２は、既存装置のログから固定部を含むフレーズを抽出し、絞り込み判断部２４は、抽出したフレーズに含まれる可変部の種類を特定する（Ｓ６２）。また、絞り込み判断部２４は、既存装置のログから特定された可変部の種類に対して、既存装置の辞書から特定された可変部の種類が限定的であるかを判断する（Ｓ６６～Ｓ７０、Ｓ１６）。この判断の結果、限定的であった場合（Ｓ１６：肯定）には、第３抽出部２６が、新規装置のログから固定部を含むフレーズを抽出する（Ｓ１８）。また、一致度判定部２８が、新規装置のログから抽出したフレーズに含まれる可変部の種類と、既存装置のログから特定された可変部の種類との一致度が閾値以上かを判断する（Ｓ２４）。そして、登録フレーズ決定部３０は、閾値以上の場合（Ｓ２４：肯定）に、既存装置の辞書から抽出した複数のフレーズをそのまま新規装置の辞書に登録する（Ｓ２６）。これにより、本実施形態では、既存装置の辞書に特徴的なフレーズが絞り込んで登録されており、かつ、新規装置のログにおいても特徴的なフレーズの絞り込みが有効であるときに、既存装置の辞書の特徴的なフレーズを新規装置の辞書に自動的に登録することができる。したがって、作業工数をかけることなく、新規装置の辞書に適切なフレーズを登録することが可能である。

また、本実施形態では、新規装置が既存装置の系列の装置である場合以外にも、新規装置の構成物（ラインカード、インタフェースカード、チップ、部品）が既存装置と共通又は類似する場合等において、作業工数をかけずに新規装置の辞書を自動的に作成することができる。

ここで、新規装置の辞書を作成する際に、既存装置の辞書を全て流用することも考えられる。しかしながら、この場合には、一致度が閾値未満の場合（図１６（ａ）の場合）にも、絞り込まれたフレーズしか新規装置の辞書に登録されないことになる。したがって、適切なフレーズを用いた機械学習が行われなくなるため、回答パターンの推論精度が低下するおそれがある。これに対し、本実施形態では、一致度が閾値以上でない場合に、固定部を含む全てのフレーズ（可変部がワイルドカード指定のフレーズ）を新規装置の辞書に登録するようにしている。これにより、新規装置のログから適切なフレーズ（既存装置のログには無いが、新規装置のログにある特徴的なフレーズ）が抽出されることになる。したがって、既存装置の辞書をそのまま新規装置の辞書に登録する場合よりも、回答パターンの推論精度を向上することができる。

一方、一致率が低い場合には、選択されている固定部を含むフレーズを新規装置の辞書へ登録しないという方法も考えられる。しかしながら、選択されている固定部を含むフレーズが新規装置のログに含まれている以上、少なくとも選択されている固定部に関しては新規装置のログを特徴づける重要なフレーズである可能性が高い。したがって、本実施形態では、このようなフレーズをワイルドカード指定で新規装置の辞書に登録して、強制的に抽出するようにしている。このようにすることで、新規装置のサポート開始時点での推論精度を高くすることができる。

また、本実施形態では、絞り込み判断部２４は、既存装置のログにおいて特定された可変部の種類の中に、既存装置の辞書において特定された可変部の種類の全てが含まれており、かつ、完全一致していない場合に、限定的であると判断する（Ｓ１４、図８）。これにより、既存装置の辞書に特徴的なフレーズが登録されているか否かを適切に判断することができる。

また、本実施形態では、絞り込み判断部２４の判断の結果、限定的でなかった場合（Ｓ１６：否定）、登録フレーズ決定部３０は、選択された固定部を含む全てのフレーズ（可変部がワイルドカード指定されたフレーズ）を新規装置の辞書に登録する（Ｓ３０）。これにより、新規装置のログからの特徴的なフレーズの抽出漏れを抑制することができる。

また、本実施形態では、新規装置のログから選択された固定部を含むフレーズを抽出できなかった場合（Ｓ２０：否定）に、登録フレーズ決定部３０は、選択された固定部を含むフレーズを新規装置の辞書に登録しないこととしている（Ｓ２８）。これにより、新規装置のログから回答パターンを得る際に不要である可能性の高いフレーズを新規装置の辞書に登録しないようにすることができる。

また、本実施形態では、登録フレーズ決定部３０は、既存装置の辞書にワイルドカード指定を含むフレーズが登録されている場合に、当該フレーズを新規装置の辞書に含める（Ｓ６０：肯定、Ｓ７０、Ｓ１６：否定、Ｓ３０）。これにより、新規装置のログからの特徴的なフレーズの抽出漏れを抑制することができる。

また、本実施形態では、フレーズのうち、固定部を除く可変部の種類を特定して、絞り込まれているか否かの判断や一致度の算出を行う。したがって、フレーズ全体を用いて、絞り込まれているか否かの判断や一致度の算出を行う場合と比べて、処理量を低減することができる。

なお、上記実施形態では、辞書やログから抽出したフレーズを固定部と可変部に分けて整形し、可変部の種類を用いて、絞り込まれているか否かの判断や一致度の算出を行う場合について説明したが、これに限られるものではない。すなわち、辞書やログから抽出したフレーズそのものの種類を用いて、絞り込まれているか否かの判断や一致度の算出を行うこととしてもよい。

なお、上記の処理機能は、コンピュータによって実現することができる。その場合、処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体（ただし、搬送波は除く）に記録しておくことができる。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ（Digital Versatile Disc）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）などの可搬型記憶媒体の形態で販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、例えば、可搬型記憶媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。

上述した実施形態は本発明の好適な実施の例である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施可能である。

なお、以上の実施形態の説明に関して、更に以下の付記を開示する。
（付記１）第１の装置のログから抽出する文字列を登録する第１の辞書から、一部に共通部分を有する複数の文字列を抽出して、抽出した前記複数の文字列の種類を特定する第１特定部と、
前記第１の装置のログから前記共通部分を含む文字列を抽出し、抽出した文字列の種類を特定する第２特定部と、
前記第２特定部が特定した文字列の種類に対して、前記第１特定部が特定した文字列の種類が限定的であるか判断する第１判断部と、
前記第１判断部の判断の結果、限定的であった場合に、前記第１の装置とは異なる第２の装置のログから一部に前記共通部分を含む文字列を抽出し、抽出した文字列の種類を特定するとともに、特定した該文字列の種類と、前記第２特定部が特定した文字列の種類との一致度が所定以上かを判断する第２判断部と、
前記一致度が所定以上の場合に、前記第１特定部が抽出した前記複数の文字列を、前記第２の装置のログから抽出する文字列を登録する第２の辞書に含める、辞書編集部と、
を備える辞書作成装置。
（付記２）前記第１判断部は、前記第２特定部が特定した文字列の種類の中に、前記第１特定部が特定した文字列の種類の全てが含まれ、かつ、前記第２特定部が特定した文字列の種類と前記第１特定部が特定した文字列の種類とが完全一致していない場合に、限定的であると判断する、ことを特徴とする付記１に記載の辞書作成装置。
（付記３）前記辞書編集部は、前記第１判断部の判断の結果、限定的でなかった場合、前記共通部分を有する全ての文字列を前記第２の装置のログから抽出するための情報を、前記第２の辞書に含めることを特徴とする付記１又は２に記載の辞書作成装置。
（付記４）前記辞書編集部は、前記一致度が所定以上でない場合に、前記共通部分を含む全ての文字列を前記第２の装置のログから抽出するための情報を、前記第２の辞書に含めることを特徴とする付記１～３のいずれかに記載の辞書作成装置。
（付記５）前記辞書編集部は、前記第２判断部が前記第２の装置のログから前記共通部分を含む文字列を抽出できなかった場合に、前記共通部分を含む文字列を前記第２の辞書に含めないことを特徴とする付記１～４のいずれかに記載の辞書作成装置。
（付記６）前記辞書編集部は、前記第１の辞書に任意文字が指定された箇所を含む文字列が登録されている場合に、該文字列を前記第２の辞書に含める、ことを特徴とする付記１～５のいずれかに記載の辞書作成装置。
（付記７）前記文字列の種類を特定する処理は、前記文字列のうち共通部分以外の部分の種類を特定する処理である、ことを特徴とする付記１～６のいずれかに記載の辞書作成装置。
（付記８）第１の装置のログから抽出する文字列を登録する第１の辞書から、一部に共通部分を有する複数の文字列を抽出して、抽出した前記複数の文字列の種類を特定し、
前記第１の装置のログから前記共通部分を含む文字列を抽出し、抽出した文字列の種類を特定し、
前記第１の装置のログから特定した文字列の種類に対して、前記第１の辞書から特定した文字列の種類が限定的であるか判断し、
前記判断の結果、限定的であった場合に、前記第１の装置とは異なる第２の装置のログから一部に前記共通部分を含む文字列を抽出し、抽出した文字列の種類を特定するとともに、特定した該文字列の種類と、前記第１の装置のログから特定した文字列の種類との一致度が所定以上かを判断し、
前記一致度が所定以上の場合に、前記第１の辞書から抽出した前記複数の文字列を、前記第２の装置のログから抽出する文字列を登録する第２の辞書に含める、
処理をコンピュータが実行することを特徴する辞書作成方法。
（付記９）前記限定的であるか判断する処理では、前記第１の装置のログから特定した文字列の種類の中に、前記第１の装置の辞書から特定した文字列の種類の全てが含まれ、かつ、前記第１の装置のログから特定した文字列の種類と前記第１の装置の辞書から特定した文字列の種類とが完全一致していない場合に、限定的であると判断する、ことを特徴とする付記８に記載の辞書作成方法。
（付記１０）前記限定的であるか判断する処理の結果、限定的でなかった場合、前記共通部分を有する全ての文字列を前記第２の装置のログから抽出するための情報を、前記第２の辞書に含めることを特徴とする付記８又は９に記載の辞書作成方法。
（付記１１）前記一致度が所定以上でない場合に、前記共通部分を含む全ての文字列を前記第２の装置のログから抽出するための情報を、前記第２の辞書に含めることを特徴とする付記８～１０のいずれかに記載の辞書作成方法。
（付記１２）前記第２の装置のログから前記共通部分を含む文字列を抽出できなかった場合に、前記共通部分を含む文字列を前記第２の辞書に含めないことを特徴とする付記８～１１のいずれかに記載の辞書作成方法。
（付記１３）前記第１の辞書に任意文字が指定された箇所を含む文字列が登録されている場合に、該文字列を前記第２の辞書に含める、ことを特徴とする付記８～１２のいずれかに記載の辞書作成方法。
（付記１４）前記文字列の種類を特定する処理は、前記文字列のうち共通部分以外の部分の種類を特定する処理である、ことを特徴とする付記８～１３のいずれかに記載の辞書作成方法。

１０辞書作成装置
２０第１抽出部（第１特定部の一部）
２２第２抽出部（第２特定部の一部）
２４絞り込み判断部（第１特定部の一部、第２特定部の一部、第１判断部）
２６第３抽出部（第２判断部の一部）
２８一致度判定部（第２判断部の一部）
３０登録フレーズ決定部（辞書編集部）

Claims

第１の装置のログから抽出する文字列を登録する第１の辞書から、一部に共通部分を有する複数の文字列を抽出して、抽出した前記複数の文字列の種類を特定する第１特定部と、
前記第１の装置のログから前記共通部分を含む文字列を抽出し、抽出した文字列の種類を特定する第２特定部と、
前記第２特定部が特定した文字列の種類に対して、前記第１特定部が特定した文字列の種類が限定的であるか判断する第１判断部と、
前記第１判断部の判断の結果、限定的であった場合に、前記第１の装置とは異なる第２の装置のログから一部に前記共通部分を含む文字列を抽出し、抽出した文字列の種類を特定するとともに、特定した該文字列の種類と、前記第２特定部が特定した文字列の種類との一致度が所定以上かを判断する第２判断部と、
前記一致度が所定以上の場合に、前記第１特定部が抽出した前記複数の文字列を、前記第２の装置のログから抽出する文字列を登録する第２の辞書に含める、辞書編集部と、
を備える辞書作成装置。
前記第１判断部は、前記第２特定部が特定した文字列の種類の中に、前記第１特定部が特定した文字列の種類の全てが含まれ、かつ、前記第２特定部が特定した文字列の種類と前記第１特定部が特定した文字列の種類とが完全一致していない場合に、限定的であると判断する、ことを特徴とする請求項１に記載の辞書作成装置。
前記辞書編集部は、前記第１判断部の判断の結果、限定的でなかった場合、前記共通部分を有する全ての文字列を前記第２の装置のログから抽出するための情報を、前記第２の辞書に含めることを特徴とする請求項１又は２に記載の辞書作成装置。
前記辞書編集部は、前記一致度が所定以上でない場合に、前記共通部分を含む全ての文字列を前記第２の装置のログから抽出するための情報を、前記第２の辞書に含めることを特徴とする請求項１～３のいずれか一項に記載の辞書作成装置。
前記辞書編集部は、前記第２判断部が前記第２の装置のログから前記共通部分を含む文字列を抽出できなかった場合に、前記共通部分を含む文字列を前記第２の辞書に含めないことを特徴とする請求項１～４のいずれか一項に記載の辞書作成装置。
前記辞書編集部は、前記第１の辞書に任意文字が指定された箇所を含む文字列が登録されている場合に、該文字列を前記第２の辞書に含める、ことを特徴とする請求項１～５のいずれか一項に記載の辞書作成装置。
前記文字列の種類を特定する処理は、前記文字列のうち共通部分以外の部分の種類を特定する処理である、ことを特徴とする請求項１～６のいずれか一項に記載の辞書作成装置。
第１の装置のログから抽出する文字列を登録する第１の辞書から、一部に共通部分を有する複数の文字列を抽出して、抽出した前記複数の文字列の種類を特定し、
前記第１の装置のログから前記共通部分を含む文字列を抽出し、抽出した文字列の種類を特定し、
前記第１の装置のログから特定した文字列の種類に対して、前記第１の辞書から特定した文字列の種類が限定的であるか判断し、
前記判断の結果、限定的であった場合に、前記第１の装置とは異なる第２の装置のログから一部に前記共通部分を含む文字列を抽出し、抽出した文字列の種類を特定するとともに、特定した該文字列の種類と、前記第１の装置のログから特定した文字列の種類との一致度が所定以上かを判断し、
前記一致度が所定以上の場合に、前記第１の辞書から抽出した前記複数の文字列を、前記第２の装置のログから抽出する文字列を登録する第２の辞書に含める、
処理をコンピュータが実行することを特徴する辞書作成方法。