以下、図面を参照して、本発明の実施形態について説明する。
図1は、本実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、文書処理装置30を構成する。
文書処理装置30は、例えばユーザによって指定された文(予め登録されている文)が言い換えられた文(以下、言い換え文と表記)を生成する機能を有する。
図2は、図1に示す文書処理装置30の主として機能構成を示すブロック図である。図2に示すように、文書処理装置30は、入力部31、用例ペア取得部32、用例ペア評価部33、用例ペア生成部34、用例ペア登録部35、文解析部36、類似用例選択部37、差分抽出部38、言い換え生成部39および出力部40を含む。本実施形態において、これらの各部31〜40は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
また、文書処理装置30は、用例生成規則保持部22、用例生成用用例保持部23、用例集保持部24および記憶部25を含む。本実施形態において、これらの各部22〜25は、例えば外部記憶装置20に格納される。
入力部31は、言い換え対象となる文の入力および用例ペアの入力にかかるユーザの操作を受け付ける。ユーザは、言い換えの対象となる文および用例集保持部24に登録すべき用例ペアを指定することができる。これにより、入力部31は、ユーザによって指定された文および用例ペアを入力する。入力部31によって入力された文は、例えば記憶部25に予め登録される。
なお、入力部31によって入力される用例ペアには、言い換え前の文字列を含む言い換え前用例および当該言い換え前用例(に含まれる文字列)が言い換えられた言い換え後の文字列を含む言い換え後用例(の組)が含まれる。
用例ペア取得部32は、入力部31によって入力された用例ペアを、予め定められた形式で取得する(受け付ける)。
用例ペア評価部33は、用例ペア取得部32によって取得された用例ペアに含まれる言い換え前用例および言い換え後用例を比較することによって評価値を算出する。この評価値は、用例ペアに対する新たな用例ペアを生成すべきか否かを判定するために用いられる。
用例生成規則保持部22には、用例ペア取得部32によって取得された用例ペアとは異なる新たな用例ペアを生成するために用いられる用例生成規則が予め保持される。用例生成規則には、条件および規則が含まれる。条件は、用例ペア取得部32によって取得された用例ペアに含まれる言い換え前用例および言い換え後用例に対して適用される。一方、規則は、言い換え後用例とは異なる新たな言い換え後用例を生成するために用いられる。
用例生成用用例保持部23には、用例ペア取得部32によって取得された用例ペアとは異なる新たな用例ペアを生成するために用いられる用例ペア(以下、用例生成用用例ペアと表記)が保持される。用例生成用用例ペアには、用例生成用言い換え前用例、第1の用例生成用言い換え後用例および第2の用例生成用言い換え後用例が含まれる。用例生成用言い換え前用例には、言い換え前の文字列が含まれる。第1の用例生成用言い換え後用例には、用例生成用言い換え前用例(に含まれる文字列)が言い換えられた言い換え後の文字列が含まれる。また、第2の用例生成用言い換え後用例には、用例生成用用例(に含まれる文字列)および第1の用例生成用言い換え後用例(に含まれる文字列)が含まれる。
用例ペア生成部34は、用例生成規則保持部22に保持されている用例生成規則を用例ペア取得部32によって取得された用例ペアに適用することによって、新たな用例ペアを生成する。また、用例ペア生成部34は、用例生成用用例保持部23に保持されている用例生成用用例ペアを用例ペア取得部32によって取得された用例ペアに適用することによって、新たな用例ペアを生成する。
なお、用例ペア生成部34は、用例ペア評価部33によって算出された評価値が予め定められた値(閾値)以上でない場合に、新たな用例ペアを生成する。
用例ペア登録部35は、用例ペア生成部34によって生成された用例ペア(新たな用例ペア)を用例集保持部24に登録する。また、用例登録部35は、入力部31によって入力された用例ペア(つまり、ユーザによって指定された用例ペア)を用例集保持部24に登録する。
用例集保持部24には、用例ペア、つまり、言い換え前の文字列を含む言い換え前用例および当該言い換え前用例が言い換えられた言い換え後の文字列を含む言い換え後用例が対応づけて保持される。
文解析部36は、記憶部25に予め登録された文(入力部31によって入力された文)を、文書処理装置30における言い換えの対象となる文として取得する。以下、記憶部25に予め登録された文(つまり、文解析部36によって取得された文)を対象文と称する。
また、文解析部36は、用例集保持部24に保持されている用例ペア(用例ペア登録部35によって用例集保持部24に登録された用例ペア)を取得する。
文解析部36は、取得された対象文および用例ペア(に含まれる言い換え前用例および言い換え後用例)を解析する。これにより、文解析部36は、対象文、用例ペアに含まれる言い換え前用例および言い換え後用例の解析結果を作成する。以下、対象文の解析結果を解析済み対象文、言い換え前用例の解析結果を解析済み言い換え前用例、言い換え後用例の解析結果を解析済み言い換え後用例と称する。また、解析済み言い換え前用例および解析済み言い換え後用例の組を解析済み用例ペアと称する。
なお、本実施形態においては、文解析部36による解析方法として例えば形態素解析が用いられる。形態素解析によれば、対象文、言い換え前用例および言い換え後用例に含まれる文字列に対して品詞が付与される。つまり、例えば解析済み対象文には、品詞が付与された文字列が含まれる。解析済み言い換え前用例および解析済み言い換え後用例についても同様である。なお、文字列に対して付与される品詞には、例えば名詞および助詞等が含まれる。
類似用例選択部37は、文解析部36によって作成された解析済み対象文および解析済み言い換え前用例を比較することによって、当該解析済み対象文および当該解析済み言い換え前用例(対象文および言い換え前用例)の類似度を算出する。類似用例選択部37は、算出された類似度に基づいて、文解析部36によって作成された解析済み言い換え前用例および解析済み言い換え後用例の組(解析済み用例ペア)を解析済み類似用例ペアとして選択する。具体的には、類似用例選択部37は、解析済み対象文との類似度が予め定められた値(閾値)以上である解析済み言い換え前用例を含む解析済み用例ペアを解析済み類似用例ペアとして選択する。
差分抽出部38は、類似用例選択部37によって解析済み類似用例ペアとして選択された解析済み用例ペア(解析済み言い換え前用例および解析済み言い換え後用例の組)に基づいて、当該解析済み言い換え前用例および当該解析済み言い換え後用例の差分を抽出する。なお、差分とは、解析済み言い換え前用例および解析済み言い換え後用例(言い換え前用例および言い換え後用例)において言い換えられている部分を表す。差分抽出部38によって抽出された差分には、解析済み類似用例ペアに含まれる解析済み言い換え前用例から抽出される文字列(以下、言い換え前差分と表記)および解析済み言い換え後用例から抽出される文字列(以下、言い換え後差分と表記)が含まれる。
言い換え生成部39は、差分抽出部38によって抽出された差分を解析済み対象文に適用することによって、対象文が言い換えられた言い換え文(対象文の言い換え文)を生成する。言い換え生成部39は、解析済み対象文に含まれる文字列のうち、差分抽出部38によって抽出された差分に含まれる言い換え前差分に該当する文字列を当該差分に含まれる言い換え後差分の文字列とすることによって対象文の言い換え文を生成する。
出力部40は、言い換え生成部39によって生成された言い換え文(対象文の言い換え文)を出力する。出力部40は、例えばディスプレイ等を介して対象文の言い換え文をユーザに対して提示する。
なお、記憶部25には、上記した言い換えの対象となる対象文、解析済み対象文、解析済み用例ペア(解析済み言い換え前用例および解析済み言い換え後用例)、解析済み類似用例ペアおよび差分抽出部38によって抽出された差分等が記憶される。
次に、図3のフローチャートを参照して、本実施形態に係る文書処理装置30の処理手順について説明する。なお、記憶部25には、文書処理装置30における言い換えの対象となる文(対象文)が予め登録(記憶)されているものとする。
まず、入力部31は、ユーザによって指定された用例ペアを入力する(ステップS1)。入力部31は、ユーザによって指定された用例ペアとして、例えばユーザが直接入力した用例ペアまたは用例集保持部24に予め保持されている用例ペアのうちユーザによって編集された用例ペア(ユーザの編集履歴に基づき獲得された用例ペア)等を入力する。なお、入力部31によって入力される用例ペアには、文字列を含む言い換え前用例および言い換え後用例が含まれる。
以下の説明では、入力部31によって言い換え前用例「個人宅に配達中の配送品」および言い換え後用例「宅配品」を含む用例ペアが入力されたものとして説明する。
次に、用例ペア取得部32は、入力部31によって入力された用例ペアを、予め定められた形式で取得する。この予め定められた形式には、例えば用例ペアに含まれる言い換え前用例および言い換え後用例の形態素解析結果等が含まれる。
用例ペア評価部33は、用例ペア取得部32によって取得された用例ペアに含まれる言い換え前用例および言い換え後用例(に含まれる文字列)を比較することによって、当該用例ペアに対する新たな用例ペアを生成すべきか否かを判定するための評価値を算出する(ステップS2)。
評価値は、例えば「一致文字数/言い換え前用例の文字数」により算出される。一致文字数とは、言い換え前用例に含まれる文字列のうち言い換え後用例に含まれる文字と一致する文字の数である。なお、一致文字数をカウントする場合、文字の比較(検索)は言い換え前用例の先頭の文字から順に行い、かつ、文字の順序が入れ替わるような比較は行わないものとする。
つまり、言い換え前用例に含まれる1つ目の文字と一致する文字が言い換え後用例から検索された場合、当該言い換え前用例に含まれる文字の次の文字(2つ目の文字)と一致する文字は、当該検索された言い換え後用例に含まれる文字の次の文字以降から検索される。
ここで、上記したように言い換え前用例が「個人宅に配達中の配送品」であり、言い換え後用例が「宅配品」である場合の評価値の算出処理について具体的に説明する。
この場合、言い換え前用例の文字「宅」、「配」および「品」は、言い換え後用例に含まれているため、一致文字数は3となる。なお、言い換え前用例には「配」が2つ存在するが、2つ目の「配」は言い換え後用例の文字「配」の次の文字(言い換え前用例の1つ目の「配」と一致した文字の次の文字)以降から検索されるため、一致文字数にはカウントされない。
また、言い換え前用例「個人宅に配達中の配送品」の文字数は、11である。したがって、言い換え前用例「個人宅に配達中の配送品」および言い換え後用例「宅配品」を含む用例ペアの評価値は、3/11、つまり、0.27となる。
次に、用例ペア評価部33によって算出された評価値が予め定められた値(閾値)以上であるか否かが判定される(ステップS3)。
ここで、この閾値が例えば0.5であるものとすると、用例ペア評価部33によって算出された評価値(0.27)は、閾値より小さいため、当該評価値が閾値以上でないと判定される。
評価値が閾値以上でないと判定された場合(ステップS3のNO)、用例ペア生成部34は、用例ペア取得部32によって取得された用例ペアに含まれる言い換え前用例および言い換え後用例に基づいて、新たな用例ペアを生成する処理(以下、用例ペア生成処理と表記)を実行する(ステップS4)。具体的には、用例ペア生成処理においては、用例ペア取得部32によって取得された用例ペアに含まれる言い換え前用例および言い換え後用例に基づいて、当該言い換え前用例に含まれる文字列(の一部)を含む新たな言い換え後用例(当該用例ペアに含まれる言い換え後用例とは異なる新たな言い換え後用例)が生成される。
なお、用例ペア生成処理においては、用例生成規則保持部22に保持されている用例生成規則および用例生成用用例保持部23に保持されている用例生成用用例ペアが用いられる。
用例生成規則保持部22に保持されている用例生成規則には、用例ペア取得部32によって取得された用例ペア(に含まれる言い換え前用例および言い換え後用例)から文字列を抽出するための条件と当該条件に合致することによって抽出される文字列を当てはめることによって新たな言い換え後用例を生成するための規則が含まれる。用例ペア生成処理においては、用例ペア取得部32によって取得された用例ペアから用例生成規則に含まれる条件に合致する文字列を抽出し、当該抽出された文字列を用例生成規則に含まれる規則に当てはめることによって新たな言い換え後用例が生成される。
また、用例生成用用例保持部23に保持されている用例生成用用例ペアには、用例生成用言い換え前用例、第1の用例生成用言い換え後用例および第2の用例生成用言い換え後用例が含まれる。この第2の用例生成用言い換え後用例には、用例生成用言い換え前用例および第1の用例生成用言い換え後用例が含まれる。用例ペア生成処理においては、第2の用例生成用言い換え後用例に含まれる用例生成用言い換え前用例を用例ペア取得部32によって取得された用例ペアに含まれる言い換え前用例とし、当該第2の用例生成用言い換え後用例に含まれる第1の用例生成用言い換え後用例を当該用例ペアに含まれる言い換え後用例とすることで新たな言い換え後用例が生成される。
用例ペア生成処理においては、上記したように用例ペア取得部32によって取得された用例ペアに含まれる言い換え後用例とは異なる新たな言い換え後用例が生成され、当該用例ペアに含まれる言い換え前用例および当該生成された新たな言い換え後用例の組が新たな用例ペアとして生成される。なお、用例ペア生成処理の詳細については後述する。
用例ペア登録部35は、入力部31によって入力された用例ペアおよび用例生成部34によって生成された新たな用例ペアを、用例集保持部24に登録する(ステップS5)。
ここで、図4は、上記したように用例ペア登録部35によって用例ペアが登録された後の用例集保持部24のデータ構造の一例を示す。上述したように、用例集保持部24には用例ペア(言い換え前用例および言い換え後用例)が保持される。
図4に示す例では、用例集保持部24には、用例ペア241〜243が保持(登録)されている。
用例集保持部24に保持されている用例ペア241には、言い換え前用例「個人宅に配達中の配送品」および言い換え後用例「宅配品」が含まれる。
用例集保持部24に保持されている用例ペア242には、言い換え前用例「個人宅に配達中の配送品」および言い換え後用例「宅配品(配送品の一種)」が含まれる。
また、用例集保持部24に保持されている用例ペア243には、言い換え前用例「個人宅に配達中の配送品」および言い換え後用例「宅配品(個人宅に配達中の配送品)」が含まれる。
なお、用例集保持部24に保持されている用例ペア241は、入力部31によって入力された用例ペア(つまり、ユーザによって指定された用例ペア)である。また、用例集保持部24に保持されている用例ペア242および243は、用例ペア生成部34によって生成された新たな用例ペアである。具体的には、用例ペア242は、用例生成規則部22に保持されている用例ペア生成規則が適用されることによって生成された新たな用例ペアである。また、用例ペア243は、用例生成用用例保持部23に保持されている用例生成用用例ペアが適用されることによって生成された新たな用例ペアである。
再び図3に戻ると、文解析部36は、記憶部25に予め登録されている文(対象文)を、当該記憶部25から読み込む(ステップS6)。ここでは、対象文「個人宅に配達中の配送品を配達する。」が記憶部25から読み込まれたものとする。
次に、文解析部36は、読み込まれた対象文、用例集保持部24に保持されている全ての用例ペア(に含まれる言い換え前用例および言い換え後用例)を解析する(ステップS7)。これにより、文解析部36は、読み込まれた文の解析結果である解析済み対象文および用例集保持部24に保持されている用例ペアの解析結果である解析済み用例ペア(解析済み言い換え前用例および解析済み言い換え後用例)を作成する。この解析済み対象文および解析済み用例ペアは記憶部25に記憶される。
なお、本実施形態では、文解析部36は形態素解析による解析処理を実行する。この形態素解析によれば、対象文、言い換え前用例および言い換え後用例は形態素に分割され、当該各形態素には品詞が付与される。
ここで、文解析部36によって作成された解析済み対象文および解析済み用例ペアについて説明する。
図5は、文解析部36によって作成された解析済み対象文の一例を示す。なお、図5は、対象文「個人宅に配達中の配送品を配達する。」を解析することによって作成された解析済み対象文を示す。
図6は、文解析部36によって作成された解析済み用例ペアの一例を示す。図6に示すように、解析済み用例ペアには、解析済み言い換え前用例および解析済み言い換え後用例が含まれる。なお、図6は、上記した図4に示す用例集保持部24に保持されている用例ペア242を解析することによって作成された解析済み用例ペアを示す。
図5および図6に示すように、解析済み対象文、解析済み言い換え前用例および解析済み言い換え後用例には、形態素毎に表層文字列および品詞が含まれる。
表層文字列とは、文解析部36による解析処理によって分割された形態素を表す部分文字列である。また、品詞は、文解析部36による解析処理によって分割された形態素の品詞を表す。なお、形態素は、品詞に応じて自立語および付属語等に分類される。自立語とは、品詞が単独で文節を構成できる品詞(例えば、名詞および動詞等)である形態素をいう。また、付属語とは、品詞が単独で文節を構成できない品詞(例えば、助詞、助動詞および句点等)である形態素をいう。
図5に示す例では、解析済み対象文の1つ目の形態素には、表層文字列「個人宅」および品詞「名詞」が含まれている。これによれば、表層文字列「個人宅」の品詞は、名詞であることが示されている。なお、他の表層文字列についても同様であるため、その詳しい説明を省略する。
また、図6に示す解析済み言い換え前用例および解析済み言い換え後用例についても図5に示す解析済み入力文と同様であるため、その詳しい説明を省略する。
なお、以下の説明においては、形態素に含まれる表層文字列および品詞を単に形態素の表層文字列および品詞と称する。
再び図3に戻ると、類似用例選択部37は、文解析部36によって作成された解析済み用例ペアの中から解析済み類似用例ペアを選択する(ステップS8)。
この場合、類似用例選択部37は、解析済み対象文および解析済み言い換え前用例に基づいて、当該解析済み対象文および当該解析済み言い換え前用例の類似度を、当該解析済み言い換え前用例毎に算出する。
類似用例選択部37は、例えば算出された類似度が予め設定された値以上である解析済み言い換え前用例を含む解析済み用例ペアを解析済み類似用例ペアとして選択する。なお、解析済み対象文との類似度が上位n位(例えば、3位)以内の解析済み言い換え前用例を含む解析済み用例ペアが解析済み類似用例ペアとして選択されても構わない。
ここで、上記した解析済み対象文および解析済み言い換え前用例の類似度を算出する処理について具体的に説明する。
まず、類似用例選択部37は、解析済み言い換え前用例の1つ目の形態素から順に、表層文字列および品詞の両方が一致する形態素を解析済み対象文の形態素から検索する。
類似用例選択部37は、解析済み言い換え前用例の形態素と表層文字列および品詞の両方が一致する形態素が解析済み対象文(の形態素)から検索された場合、当該解析済み言い換え前用例の形態素および解析済み対象文の形態素を対応づける。
なお、既に解析済み言い換え前用例の形態素と対応づけられた解析済み対象文の形態素は、次回以降の検索対象からは除外される。つまり、解析済み言い換え前用例の形態素および解析済み対象文の形態素は、一対一で対応づけられる。
また、解析済み言い換え前用例の形態素および解析済み対象文の形態素の対応づけは、他の対応づけと交差することはないものとする。換言すれば、既に対応づけられた形態素の対応づけを越えるような対応づけは行われない。
つまり、解析済み言い換え前用例の形態素が解析済み対象文の形態素と対応づけられた場合、当該解析済み言い換え前用例の形態素の次の形態素は、当該解析済み対象文の形態素の次の形態素以降の形態素と対応づけられる。
上記したように、解析済み言い換え前用例の形態素の各々について解析済み対象文の形態素との対応づけ(の処理)が行われると、類似用例選択部37は、例えば「表層文字列および品詞が一致した形態素数/M」の計算式によって類似度を算出する。
この計算式における表層文字列および品詞が一致した形態素数とは、解析済み対象文の形態素と対応づけられた解析済み言い換え前用例の形態素の数である。
また、この計算式におけるMは、「解析済み言い換え前用例の形態素と最初に表層文字列および品詞が一致した形態素から最後に表層文字列および品詞が一致した形態素までの解析済み対象文における形態素数(つまり、解析済み言い換え前用例の形態素と最初に対応づけられた形態素から最後に対応づけられた形態素までの解析済み対象文における形態素数)」および「解析済み言い換え前用例の形態素数」のうち、値(つまり、形態素数)が大きい方である。
上記したような処理により、類似用例選択部37は、解析済み対象文および解析済み言い換え前用例の類似度を算出することができる。なお、類似度は、上記した以外の処理によって算出されても構わない。
ここで、図7を参照して、解析済み対象文および解析済み言い換え前用例の類似度の算出処理について具体的に説明する。ここでは、図5に示す解析済み対象文および図6に示す解析済み言い換え前用例の類似度を算出する場合について説明する。
上記した対応づけの処理が実行されると、図7に示すように解析済み言い換え前用例の形態素の各々が解析済み対象文の形態素と対応づけられる。
図7に示す例では、上記した計算式における表層文字列および品詞が一致した形態素数は、6である。また、上記した計算式におけるMは、「解析済み言い換え前用例の形態素と最初に表層文字列および品詞が一致した形態素から最後に表層文字列および品詞が一致した形態素までの解析済み対象文における形態素数」が6であり、「解析済み言い換え前用例の形態素数」が6であることから、6となる。
以上により、図5に示す解析済み対象文および図6に示す解析済み言い換え前用例の類似度は、6/6、つまり、1.0となる。
このように算出された類似度1.0が予め定められた値以上である場合には、類似用例選択部37は、図6に示す解析済み用例ペアを解析済み類似用例ペアとして選択する。なお、類似用例選択部37によって選択された解析済み類似用例ペアは記憶部25に記憶される。
再び図3に戻ると、差分抽出部38は、類似用例選択部37によって選択された全ての解析済み類似用例ペア(記憶部25に記憶された解析済み類似用例ペア)から差分を抽出する(ステップS9)。この差分を抽出する処理(差分抽出処理)においては、類似用例選択部37によって選択された全ての解析済み類似用例ペアに含まれる解析済み言い換え前用例および解析済み言い換え後用例の各形態素を比較することによって差分が抽出される。
以下、差分抽出処理について具体的に説明する。まず、差分抽出部38は、解析済み言い換え前用例の自立語の形態素(品詞が名詞等である形態素)の各々について、表層文字列(および品詞)が一致する形態素を解析済み言い換え後用例(の形態素)から検索する。このとき、解析済み言い換え前用例の自立語の形態素の1つ目から順に処理が実行される。
解析済み言い換え前用例の自立語の形態素と表層文字列が一致する形態素が解析済み言い換え後用例から検索された場合には、当該解析済み言い換え前用例の形態素および解析済み言い換え後用例の形態素は対応づけられる。一方、解析済み言い換え前用例の自立語の形態素と表層文字列が一致する形態素が解析済み言い換え後用例から検索されない場合には、当該解析済み言い換え前用例の形態素は、解析済み言い換え後用例の形態素とは対応づけられない。
次に、差分抽出部38は、解析済み言い換え前用例の付属語の形態素(品詞が助詞等である形態素)の各々について、表層文字列(および品詞)が一致する形態素を解析済み言い換え後用例(の形態素)から検索する。このとき、解析済み言い換え前用例の付属語の形態素の1つ目から順に処理が実行される。
解析済み言い換え前用例の付属語の形態素と表層文字列が一致する形態素が解析済み言い換え後用例から検索された場合、当該解析済み言い換え前用例の形態素および解析済み言い換え後用例の形態素は対応づけられる。一方、解析済み言い換え前用例の付属語の形態素と表層文字列が一致する形態素が解析済み言い換え後用例から検索されない場合には、当該解析済み言い換え前用例の形態素は、解析済み言い換え後用例の形態素とは対応づけられない。
上記した解析済み言い換え前用例の形態素(自立語および付属語の形態素)および解析済み言い換え後用例の形態素の対応づけは、他の対応づけと交差することはないものとする。換言すれば、既に対応づけられた形態素の対応づけを越えるような対応づけは行われない。つまり、解析済み言い換え前用例の形態素が解析済み言い換え後用例の形態素と対応づけられた場合、当該解析済み言い換え前用例の形態素の次の形態素は、当該解析済み言い換え後用例の形態素の次の形態素以降の形態素と対応づけられる。
上記したように解析済み言い換え前用例の形態素および解析済み言い換え後用例の形態素の対応づけが行われると、差分抽出部38は、当該対応づけの結果に基づいて解析済み言い換え前用例および解析済み言い換え後用例から差分を抽出する。以下、解析済み言い換え前用例から抽出された差分を言い換え前差分、解析済み言い換え後用例から抽出された差分を言い換え後差分とする。
具体的には、差分抽出部38は、解析済み言い換え前用例の1つ目の形態素から順に以下の処理を実行する。なお、以下の処理の対象となる解析済み言い換え前用例の形態素を解析済み言い換え前用例の対象形態素とする。
まず、解析済み言い換え前用例の対象形態素と対応づけられた解析済み言い換え後用例の形態素が存在するか否かが判定される。
ここで、解析済み言い換え前用例の対象形態素と対応づけられた解析済み言い換え後用例の形態素が存在しないと判定された場合を想定する。この場合には、解析済み言い換え前用例の対象形態素(の表層文字列および品詞)が言い換え前差分として抽出され、言い換え後差分は抽出されない。
一方、解析済み言い換え前用例の対象形態素と対応づけられた解析済み言い換え後用例の形態素が存在すると判定された場合であって、当該解析済み言い換え後用例の形態素の前(直前)に解析済み言い換え前用例の他の形態素(対象形態素とは異なる形態素)と対応づけられていない形態素が存在する場合を想定する。この場合には、解析済み言い換え前用例の対象形態素が言い換え前差分として抽出される。更に、解析済み言い換え前用例の対象形態素に対応づけられた解析済み言い換え後用例の形態素が、当該形態素の前(直前)の形態素であって解析済み言い換え前用例の形態素と対応づけられていない形態素にまで拡張されて、言い換え後差分として抽出される。つまり、解析済み言い換え前用例の対象形態素に対応づけられた解析済み言い換え後用例の形態素、および当該解析済み言い換え後用例の前の形態素であって、解析済み言い換え前用例の形態素と対応づけられていない形態素が言い換え後差分として抽出される。
なお、解析済み言い換え前用例の対象形態素に対応づけられた解析済み言い換え後用例の形態素の後(直後)に解析済み言い換え前用例の形態素と対応づけられていない形態素が存在する場合であって、当該解析済み言い換え前用例の形態素と対応づけられていない形態素の後に解析済み言い換え前用例の形態素と対応づけられた形態素が存在しない場合は、当該解析済み言い換え前用例の対象形態素に対応づけられた解析済み言い換え後用例の形態素が、当該解析済み言い換え後用例の形態素の後の解析済み言い換え前用例の形態素と対応づけられていない形態素にまで拡張されて、言い換え後差分として抽出される。
また、解析済み言い換え前用例の対象形態素と対応づけられた解析済み言い換え後用例の形態素が存在すると判定された場合であって、当該解析済み言い換え後用例の形態素の前(または後)に解析済み言い換え前用例の他の形態素と対応づけられていない形態素が存在しない場合には、言い換え前差分および言い換え後差分は抽出されない。
なお、差分抽出処理において抽出された差分(言い換え前差分および言い換え後差分)は記憶部25に記憶される。
上記した処理が解析済み言い換え前用例の形態素の各々について実行されると、差分抽出部38による差分抽出処理は終了される。
ここで、図8を参照して、解析済み類似用例ペア(解析済み言い換え前用例および解析済み言い換え後用例)から差分を抽出する差分抽出処理について具体的に説明する。ここでは、図6に示す解析済み用例ペアが解析済み類似用例ペアであるものとして説明する。つまり、図6に示す解析済み用例ペアに含まれる解析済み言い換え前用例および解析済み言い換え後用例から差分が抽出される場合について説明する。
まず、差分抽出処理においては、解析済み言い換え前用例の自立語の形態素の各々について、表層文字列が一致する形態素が解析済み言い換え後用例から検索される。このとき、解析済み言い換え前用例の自立語の形態素の1つ目から順に処理が実行される。
図8に示す例では、解析済み言い換え前用例の形態素のうち自立語の形態素(の表層文字列)は、「個人宅」、「配達」、「中」および「配送品」である。これらの自立語の形態素のうちの1つ目の形態素「個人宅」については、表層文字列合致する形態素が解析済み言い換え後用例には存在しないため、当該解析済み言い換え後用例の形態素とは対応づけられない。なお、自立語の形態素のうちの2つ目の形態素「配達」および3つ目の形態素「中」についても同様である。
一方、自立語の形態素のうちの4つ目の形態素「配送品」については、表層文字列が一致する形態素が解析済み言い換え後用例に存在するため、言い換え後用例の形態素「配送品」と対応づけられる。
次に、解析済み言い換え前用例の付属語の形態素の各々について、表層文字列が一致する形態素が解析済み言い換え後用例から検索される。このとき、解析済み言い換え前用例の付属語の形態素の1つ目から順に処理が実行される。
図8に示す例では、解析済み言い換え前用例の形態素のうち付属語の形態素(の表層文字列)は、「に」および「の」である。これらの付属語の形態素のうちの1つ目の形態素「に」については、表層文字列が一致する形態素が解析済み言い換え後用例には存在しないため、当該解析済み言い換え後用例の形態素とは対応づけられない。
また、付属語の形態素のうちの2つ目の形態素「の」は、表層文字列が一致する形態素が解析済み言い換え後用例に存在するが、この形態素「の」を解析済み言い換え後用例の形態素「の」と対応づけた場合には、上記した解析済み言い換え前用例および解析済み言い換え後用例の形態素「配送品」の対応づけと交差するため、当該解析済み言い換え前用例および解析済み言い換え後用例の形態素「の」は対応づけられない。
上記したように解析済み言い換え前用例の形態素および解析済み言い換え後用例の形態素の対応づけが行われると、解析済み言い換え前用例の1つ目の形態素から順に以下のように処理される。
まず、解析済み言い換え前用例の1つ目の形態素「個人宅」と対応づけられた解析済み言い換え後用例の形態素が存在するか否かが判定される。
上記したように、解析済み言い換え前用例の形態素「個人宅」と対応づけられた解析済み言い換え後用例の形態素は存在しないため、当該解析済み言い換え前用例の形態素「個人宅」が言い換え前差分として抽出される。なお、解析済み言い換え前用例の形態素「個人宅」と対応づけられた解析済み言い換え後用例の形態素が存在しない場合には、言い換え後差分は抽出されない。以下、このように言い換え後差分が抽出されない場合には、便宜的に、言い換え後差分「−」と表記するものとする。この場合、図8に示すように、言い換え前差分「個人宅」および言い換え後差分「−」が対応づけて記憶部25に記憶される。また、記憶部25に記憶された差分(言い換え前差分「個人宅」および言い換え後差分「−」)には、当該差分を識別するための差分ID(ここでは、差分ID「1」)が付与される。
次に、解析済み言い換え前用例の2つ目の形態素「に」と対応づけられた解析済み言い換え後用例の形態素が存在するか否かが判定される。
上記したように、解析済み言い換え前用例の形態素「に」と対応づけられた解析済み言い換え後用例の形態素は存在しないため、当該解析済み言い換え前用例の形態素「に」が言い換え前差分として抽出される。なお、解析済み言い換え前用例の形態素「に」と対応づけられた解析済み言い換え後用例の形態素が存在しない場合には、言い換え後差分は抽出されない。この場合には、図8に示すように、言い換え前差分「に」および言い換え後差分「−」が対応づけて記憶部25に記憶される。また、記憶部25に記憶された差分(言い換え前差分「に」および言い換え後差分「−」)には、当該差分を識別するための差分ID(ここでは、差分ID「2」)が付与される。
次に、解析済み言い換え前用例の3つ目の形態素「配達」と対応づけられた解析済み言い換え後用例の形態素が存在するか否かが判定される。
上記したように、解析済み言い換え前用例の形態素「配達」と対応づけられた解析済み言い換え後用例の形態素は存在しないため、当該解析済み言い換え前用例の形態素「配達」が言い換え前差分として抽出される。なお、解析済み言い換え前用例の形態素「配達」と対応づけられた解析済み言い換え後用例の形態素が存在しない場合には、言い換え後差分は抽出されない。この場合、図8に示すように、言い換え前差分「配達」および言い換え後差分「−」が対応づけて記憶部25に記憶される。また、記憶部25に記憶された差分(言い換え前差分「配達」および言い換え後差分「−」)には、当該差分を識別するための差分ID(ここでは、差分ID「3」)が付与される。
次に、解析済み言い換え前用例の4つ目の形態素「中」と対応づけられた解析済み言い換え後用例の形態素が存在するか否かが判定される。
上記したように、解析済み言い換え前用例の形態素「中」と対応づけられた解析済み言い換え後用例の形態素は存在しないため、当該解析済み言い換え前用例の形態素「中」が言い換え前差分として抽出される。なお、解析済み言い換え前用例の形態素「中」と対応づけられた解析済み言い換え後用例の形態素が存在しない場合には、言い換え後差分は抽出されない。この場合、図8に示すように、言い換え前差分「中」および言い換え後差分「−」が対応づけて記憶部25に記憶される。また、記憶部25に記憶された差分(言い換え前差分「中」および言い換え後差分「−」)には、当該差分を識別するための差分ID(ここでは、差分ID「4」)が付与される。
次に、解析済み言い換え前用例の5つ目の形態素「の」と対応づけられた解析済み言い換え後用例の形態素が存在するか否かが判定される。
上記したように、解析済み言い換え前用例の形態素「の」と対応づけられた解析済み言い換え後用例の形態素は存在しないため、当該解析済み言い換え前用例の形態素「の」が言い換え前差分として抽出される。なお、解析済み言い換え前用例の形態素「の」と対応づけられた解析済み言い換え後用例の形態素が存在しない場合には、言い換え後差分は抽出されない。この場合、図8に示すように、言い換え前差分「の」および言い換え後差分「−」が対応づけて記憶部25に記憶される。また、記憶部25に記憶された差分(言い換え前差分「の」および言い換え後差分「−」)には、当該差分を識別するための差分ID(ここでは、差分ID「5」)が付与される。
次に、解析済み言い換え前用例の6つ目の形態素「配送品」と対応づけられた解析済み言い換え後用例の形態素が存在するか否かが判定される。
この場合、上記したように解析済み言い換え前用例の形態素「配送品」と対応づけられた解析済み言い換え後用例の形態素「配送品」が存在する。また、解析済み言い換え後用例の形態素「配送品」の前には、解析済み言い換え前用例の形態素と対応づけられていない形態素「宅配品」および「(」が存在する。更に、解析済み言い換え後用例の形態素「配送品」の後には、解析済み言い換え前用例の形態素と対応づけられていない形態素「の」、「一種」および「)」が存在し、かつ、これらの形態素の後には解析済み言い換え前用例の形態素と対応づけられた形態素は存在しない。
この場合には、解析済み言い換え前用例の形態素「配送品」が言い換え前用例として抽出される。また、解析済み言い換え後用例の形態素「宅配品」、「(」、「配送品」、「の」、「一種」および「)」(つまり、「宅配品(配送品の一種)」)が言い換え後差分として抽出される。つまり、言い換え後差分は、解析済み言い換え前用例の形態素「配送品」と対応づけられた解析済み言い換え後用例の形態素「配送品」の前後の形態素であって、解析済み言い換え前用例の形態素と対応づけられていない形態素にまで拡張される。
これにより、図8に示すように、言い換え前差分「配送品」および言い換え後差分「宅配品(配送品の一種)」が対応づけて記憶部25に記憶される。また、記憶部25に記憶された差分(言い換え前差分「配送品」および言い換え後差分「宅配品(配送品の一種)」)には、当該差分を識別するための差分ID(ここでは、差分ID「6」)が付与される。
上記したように差分抽出処理が実行されることにより、上述した図6に示す解析済み言い換え前用例および解析済み言い換え後用例から差分ID「1」〜「6」によって識別される差分(言い換え前差分および言い換え後差分)が抽出される。なお、言い換え前差分および言い換え後差分としては形態素(表層文字列および品詞)が抽出されるが、図8に示す例では、当該形態素の品詞については省略されている。
再び図3に戻ると、言い換え生成部39は、差分抽出部38によって抽出された差分を解析済み対象文に適用することによって、対象文が言い換えられた文(当該対象文の言い換え文)を生成する(ステップS10)。この対象文の言い換え文を生成する処理(言い換え生成処理)においては、解析済み対象文の各形態素について、差分抽出部38によって言い換え前差分として抽出された形態素と表層文字列(および品詞)が同一の形態素を当該言い換え前差分に対応づけられている言い換え後差分(として抽出された形態素)と入れ替えることによって対象文の言い換え文が生成される。このとき、解析済み対象文の形態素の1つ目から順に処理が実行される。
ここで、図9を参照して、解析済み対象文に対して差分を適用することによって対象文の言い換え文を生成する言い換え生成処理について具体的に説明する。ここでは、上述した図5に示す解析済み対象文に対して図8において説明した差分が適用される場合について説明する。
まず、言い換え生成部39は、記憶部25に記憶された差分(差分抽出部38によって抽出された差分)から、解析済み対象文の1つ目の形態素「個人宅」と表層文字列(および品詞)が一致する言い換え前差分を検索する。図8に示す例では、記憶部25に記憶された差分には、解析済み対象文の形態素「個人宅」と表層文字列が一致する言い換え前差分が存在するため、当該言い換え前差分(差分ID「1」が付与されている言い換え前差分)が検索される。
このとき、言い換え生成部39によって検索された言い換え前差分に対応づけられている言い換え後差分(つまり、差分ID「1」が付与されている言い換え後差分)は、言い換え後差分「−」である。なお、言い換え後差分「−」は、解析済み言い換え後用例から形態素が抽出されていないことを示す。
したがって、言い換え生成部39は、解析済み対象文の形態素「個人宅」(の表層文字列および品詞)を言い換え後差分「−」(の表層文字列および品詞)と入れ替える。つまり、この場合には解析済み対象文の形態素「個人宅」は削除される。
次に、言い換え生成部39は、記憶部25に記憶された差分から、解析済み対象文の2つ目の形態素「に」と表層文字列が一致する言い換え前差分を検索する。図8に示す例では、記憶部25に記憶された差分には、解析済み対象文の形態素「に」と表層文字列が一致する言い換え前差分が存在するため、当該言い換え前差分(差分ID「2」が付与されている言い換え前差分)が検索される。
このとき、言い換え生成部39によって検索された言い換え前差分に対応づけられている言い換え後差分(つまり、差分ID「2」が付与されている言い換え後差分)は、言い換え後差分「−」である。
したがって、言い換え生成部39は、解析済み対象文の形態素「に」を言い換え後差分「−」と入れ替える。つまり、この場合には解析済み対象文の形態素「に」は削除される。
次に、言い換え生成部39は、記憶部25に記憶された差分から、解析済み対象文の3つ目の形態素「配達」と表層文字列が一致する言い換え前差分を検索する。図8に示す例では、記憶部25に記憶された差分には、解析済み対象文の形態素「配達」と表層文字列が一致する言い換え前差分が存在するため、当該言い換え前差分(差分ID「3」が付与されている言い換え前差分)が検索される。
このとき、言い換え生成部39によって検索された言い換え前差分に対応づけられている言い換え後差分(つまり、差分ID「3」が付与されている言い換え後差分)は、言い換え後差分「−」である。
したがって、言い換え生成部39は、解析済み対象文の形態素「配達」を言い換え後差分「−」と入れ替える。つまり、この場合には解析済み対象文の形態素「配達」は削除される。
次に、言い換え生成部39は、記憶部25に記憶された差分から、解析済み対象文の4つ目の形態素「中」と表層文字列が一致する言い換え前差分を検索する。図8に示す例では、記憶部25に記憶された差分には、解析済み対象文の形態素「中」と表層文字列が一致する言い換え前差分が存在するため、当該言い換え前差分(差分ID「4」が付与されている言い換え前差分)が検索される。
このとき、言い換え生成部39によって検索された言い換え前差分に対応づけられている言い換え後差分(つまり、差分ID「4」が付与されている言い換え後差分)は、言い換え後差分「−」である。
したがって、言い換え生成部39は、解析済み対象文の形態素「中」を言い換え後差分「−」と入れ替える。つまり、この場合には解析済み対象文の形態素「中」は削除される。
次に、言い換え生成部39は、記憶部25に記憶された差分から、解析済み対象文の5つ目の形態素「の」と表層文字列が一致する言い換え前差分を検索する。図8に示す例では、記憶部25に記憶された差分には、解析済み対象文の形態素「の」と表層文字列が一致する言い換え前差分が存在するため、当該言い換え前差分(差分ID「5」が付与されている言い換え前差分)が検索される。
このとき、言い換え生成部39によって検索された言い換え前差分に対応づけられている言い換え後差分(つまり、差分ID「5」が付与されている言い換え後差分)は、言い換え後差分「−」である。
したがって、言い換え生成部39は、解析済み対象文の形態素「の」を言い換え後差分「−」と入れ替える。つまり、この場合には解析済み対象文の形態素「の」は削除される。
次に、言い換え生成部39は、記憶部25に記憶された差分から、解析済み対象文の6つ目の形態素「配送品」と表層文字列が一致する言い換え前差分を検索する。図8に示す例では、記憶部25に記憶された差分には、解析済み対象文の形態素「配送品」と表層文字列が一致する言い換え前差分が存在するため、当該言い換え前差分(差分ID「6」が付与されている言い換え前差分)が検索される。
このとき、言い換え生成部39によって検索された言い換え前差分に対応づけられている言い換え後差分(つまり、差分ID「6」が付与されている言い換え後差分)は、言い換え後差分「宅配品(配送品の一種)」である。
したがって、言い換え生成部39は、解析済み対象文の形態素「配送品」を言い換え後差分「宅配品(配送品の一種)」と入れ替える。
次に、言い換え生成部39は、記憶部25に記憶された差分から、解析済み対象文の7つ目の形態素「を」と表層文字列が一致する言い換え前差分を検索する。ここでは、記憶部25に記憶された差分には、解析済み対象文の形態素「を」と表層文字列が一致する言い換え前差分が存在しない。
この場合には、解析済み対象文の形態素「を」と表層文字列が一致する言い換え前差分は検索されないため、当該解析済み対象文の形態素「を」は、変更されない。
なお、解析済み対象文の8つ目以降の形態素については、上記した解析済み対象文の7つ目の形態素と同様であるため、その詳しい説明を省略する。
上記したように図5に示す解析済み対象文に対して図8において説明した差分が適用された場合には、図9に示すように、対象文「個人宅に配達中の配送品を配達する場合。」の言い換え文(言い換え結果)として「宅配品(配送品の一種)を配達する場合。」が生成される。
再び図3に戻ると、出力部40は、言い換え生成部39によって生成された対象文の言い換え文を出力する。この場合、出力部36は、対象文の言い換え文を例えば液晶ディスプレイ等に表示することによりユーザに対して提示する。
ここで、図10は、対象文「個人宅に配達中の配送品を配達する場合。」の言い換え文(言い換え結果)が表示された表示画面の一例を示す。
図10に示す例では、表示画面400には、言い換え文(言い換え結果)401〜403が表示されている。
表示画面400には、言い換え文401として「宅配品を配達する場合。」が表示されている。表示画面400には、言い換え文402として「宅配品(配送品の一種)を配達する場合。」が表示されている。また、表示画面400には、言い換え文403として「宅配品(個人宅に配達中の配送品)を配達する場合。」が表示されている。
なお、表示画面400に表示されている言い換え文402は、上記したように図4に示す用例集保持部24に保持されている用例ペア242(の解析済み用例ペア)を用いた場合に生成される言い換え文である。
一方、表示画面400に表示されている言い換え文401は、図4に示す用例集保持部24に保持されている用例ペア241を用いた場合に生成される言い換え文である。また、表示画面400に表示されている言い換え文403は、図4に示す用例集保持部24に保持されている用例ペア243を用いて場合に生成される言い換え文である。
上述した図6〜図9においては、図4に示す用例集保持部24に保持されている用例ペア242を用いて言い換え文が生成される場合について具体的に説明したが、当該用例集保持部24に保持されている用例ペア241および用例ペア243を用いて言い換え文が生成される場合についても同様であるため、その詳しい説明を省略する。
次に、図11のフローチャートを参照して、上述した用例ペア生成処理(図3に示すステップS4の処理)の処理手順について説明する。この用例ペア生成処理は、用例ペア生成部34によって実行される。
ここでは、図3に示すステップS1において、言い換え前用例「個人宅に配達中の配送品」および言い換え後用例「宅配品」を含む用例ペアが入力部31によって入力されたものとする。
また、上述したように用例ペア取得部32は、入力部31によって入力された用例ペアを予め定められた形式として、当該用例ペアの形態素解析結果を取得するものとする。
ここで、図12は、用例ペア取得部32によって取得された用例ペアの形態素解析結果(解析済み用例ペア)の一例を示す。図12に示すように、解析済み用例ペアには、解析済み言い換え前用例および解析済み言い換え後用例が含まれる。
解析済み言い換え前用例および解析済み言い換え後用例には、形態素毎に表層文字列および品詞が含まれる。なお、これらの詳細については、上述した図5および6と同様であるため、その詳しい説明を省略する。
用例生成処理においては、まず、言い換え生成部39は、用例ペア取得部32によって取得された用例ペア(解析済み用例ペア)を取得する(ステップS21)。ここでは、上記した図12に示す解析済み用例ペアが取得される。
次に、用例ペア生成部34は、取得された解析済み用例ペアに対して、用例生成規則保持部22に保持されている用例生成規則を適用する(ステップS22)。これにより、用例ペア生成部34は、取得された解析済み用例ペアに含まれる言い換え後用例とは異なる新たな言い換え後用例を生成する。
用例生成規則保持部22に保持されている用例生成規則は、解析済み用例ペアに対して用例生成規則を適用するか否かを決定するための条件(条件部)および言い換え後用例とは異なる新たな言い換え後用例を生成するための規則(動作部)からなる。
ここで、用例生成規則保持部22に保持されている用例生成規則の一例について説明する。
用例生成規則の条件は、例えば言い換え前用例(解析済み言い換え前用例)の条件および言い換え後用例(解析済み言い換え後用例)の条件に分かれるものとする。言い換え前用例の条件としては、例えば「言い換え前用例 A+“の(助詞)”+B」が含まれる。一方、言い換え後用例の条件としては、例えば「言い換え後用例 C」が含まれる。
ここで、言い換え前用例の条件における「“」および「”」で囲まれた記述(ここでは、「の(助詞)」)は、解析済み言い換え前用例における当該形態素の有無をチェックすることを意味する。なお、「の(助詞)」の記述は、表層文字列が「の」であり、品詞が「助詞」である形態素を表すものとする。以下、他の形態素についても同様である。
なお、解析済み言い換え前用例に「“」および「”」で囲まれた記述に該当する形態素が存在しない場合には、用例生成規則は適用されない。つまり、この用例生成規則によっては新たな言い換え後用例は生成されない。
また、言い換え前用例の条件および言い換え後用例の条件における記号「A」、「B」および「C」は、例えば「“」および「”」で囲まれた記述に該当する形態素に対する当該各記号の相対位置に該当する形態素(表層文字列および品詞)を当該各記号(変数)に代入することを意味する。換言すれば、言い換え前用例および言い換え後用例の条件によれば、当該条件における記号「A」、「B」および「C」に該当(合致)する形態素(表層文字列および品詞)が抽出される。
例えば言い換え前用例の条件「言い換え前用例 A+“の(助詞)”+B」においては、解析済み言い換え前用例における表層文字列「の」および品詞「助詞」の形態素に対して前(側)の形態素が変数Aに代入され、当該形態素の後(側)の形態素が変数Bに代入されることを意味する。一方、言い換え後用例の条件「言い換え後用例 C」においては、解析済み言い換え後用例における全ての形態素が変数Cに代入されることを意味する。
なお、解析済み言い換え前用例および解析済み言い換え後用例において、相対位置に該当する形態素が存在しない場合には、用例生成規則は適用されない。
一方、用例生成規則の規則としては、例えば「C+“(”+B+“の(助詞)”+“一種(名詞)”+“)”」が含まれる。
この規則における記号「B」および「C」は、上記した言い換え前用例および言い換え後用例の条件において当該「B」および「C」に代入された形態素(の表層文字列および品詞)を生成することを意味する。また、規則における「“」および「”」で囲まれた記述は、当該記述の形態素を生成することを意味する。つまり、言い換え前用例および言い換え後用例の条件において合致することによって抽出された記号「A」、「B」および「C」(ここでは、記号「B」および「C」)に該当(合致)する形態素を、この規則において当てはめることによって新たな言い換え後用例が生成される。
なお、解析済み用例ペアに対して用例生成規則が適用される場合には、当該解析済み用例ペアに含まれる解析済み言い換え前用例に対して言い換え前用例の条件が適用され、かつ、当該解析済み用例ペアに含まれる解析済み言い換え後用例に対して言い換え後用例の条件が適用された後に、当該条件(言い換え前用例および言い換え後用例の条件)が適用された結果(適用されることによって抽出された形態素)に対して規則が適用される。
ここで、図13を参照して、図12に示す解析済み用例ペアに対して上記した用例生成規則が適用される場合について具体的に説明する。
まず、図12に示す解析済み用例ペアに含まれる解析済み言い換え前用例に対して、用例生成規則の条件のうちの言い換え前用例の条件「言い換え前用例 A+“の(助詞)”+B」が適用された場合について説明する。
この場合、用例ペア生成部34は、解析済み言い換え前用例から、言い換え前用例の条件における「“」および「”」で囲まれた記述に該当する形態素「の(助詞)」を検索する。
ここでは、解析済み言い換え前用例には形態素「の(助詞)」が存在するため、当該解析済み言い換え前用例の形態素「の(助詞)」の前側の形態素「個人宅(名詞)」、「に(助詞)」、「配達(名詞)」および「中(接尾)」が変数Aに代入される。また、解析済み言い換え前用例の形態素「の(助詞)」の後側の形態素「配送品(名詞)」が変数Bに代入される。
次に、図12に示す解析済み用例ペアに含まれる解析済み言い換え後用例に対して、用例生成規則の条件のうちの言い換え後用例の条件「言い換え後用例 C」が適用された場合について説明する。
この場合、用例ペア生成部34は、解析済み言い換え後用例の形態素「宅配品(名詞)」を変数Cに代入する。
上記したように変数A、BおよびCに形態素が代入(つまり、抽出)されると、用例ペア生成部34は、用例生成規則の規則「C+“(”+B+“の(助詞)”+“一種(名詞)”+“)”」を適用する。
この場合、用例ペア生成部34は、上記したように変数BおよびCに代入された形態素を、用例生成規則の規則中における変数BおよびCの位置に生成し(つまり、当てはめ)、かつ、「“」および「”」で囲まれた形態素を生成することによって、新たな言い換え後用例を生成する。
上記したように変数Bには形態素「配送品(名詞)」が代入されており、変数Cには形態素「宅配品(名詞)」が代入されている。したがって、用例ペア生成部34は、図13に示すように新たな言い換え後用例として、形態素「宅配品」、「(」、「配送品」、「の」、「一種」および「)」から「宅配品(配送品の一種)」を生成する。
なお、上記したステップS22において解析済み用例ペアに対して用例生成規則が適用された場合においては、入力部31によって入力された言い換え前用例「個人宅に配達中の配送品」および用例ペア生成部34によって生成された「宅配品(配送品の一種)」の組が新たな用例ペアとされる。
再び図11に戻ると、用例ペア生成部34は、取得された解析済み用例ペアに対して、用例生成用用例保持部23に保持されている用例生成用用例ペアを適用する(ステップS23)。これにより、用例ペア生成部34は、取得された解析済み用例ペアに含まれる言い換え後用例とは異なる新たな言い換え後用例を生成する。
なお、ここで生成される新たな言い換え後用例は、上記したステップS22において用例生成規則が適用されることによって生成される新たな言い換え後用例とは異なる。
用例生成用用例保持部23に保持されている用例生成用用例ペアには、用例生成用言い換え前用例、第1の用例生成用言い換え後用例および第2の用例生成用言い換え後用例が含まれる。用例生成用言い換え後用例には、言い換え前の文字列が含まれる。第1の用例生成用言い換え後用例には、用例生成用言い換え前用例が言い換えられた言い換え後の文字列が含まれる。第2の用例生成用言い換え後用例には、例えば用例生成用言い換え前用例および第1の用例生成用言い換え後用例が含まれる。
なお、用例生成用用例保持部23には、用例生成用用例ペア(用例生成用言い換え前用例、第1の用例生成用言い換え後用例および第2の用例生成用言い換え後用例の組)が形態素解析結果の形式で保持されているものとする。つまり、ステップS23の処理では、用例生成用用例ペアの形態素解析結果が用いられるが、以下の説明では単に用例生成用用例ペアと称する。また、用例生成用用例ペアに含まれる用例生成用言い換え前用例、第1の用例生成用言い換え後用例および第2の用例生成用言い換え後用例についても同様である。
ここで、図14を参照して、図12に示す解析済み用例ペアに対して用例生成用用例ペアが適用される場合の処理について具体的に説明する。
ここでは、用例生成用用例ペアに含まれる用例生成用言い換え前用例は、例えば「品物」であるものとする。用例生成用用例ペアに含まれる第1の用例生成用言い換え後用例は、例えば「商品」であるものとする。また、用例生成用用例ペアに含まれる第2の用例生成用言い換え後用例は、例えば「商品(品物)」であるものとする。
また、図11に示すステップS21においては、上記した図12に示す解析済み用例ペアが取得されたものとする。以下の説明においては、図11に示すステップS21において取得された解析済み用例ペアを対象解析済み用例ペアとする。なお、同様に、対象解析済み用例ペアに含まれる言い換え前用例を対象言い換え前用例、当該対象解析済み用例ペアに含まれる言い換え後用例を対象言い換え後用例とする。
まず、用例ペア生成部34は、用例生成用用例ペアに含まれる用例生成用言い換え前用例、第1の用例生成用言い換え後用例および第2の用例生成用言い換え後用例の間の差分を抽出する。
この場合、用例ペア生成部34は、用例生成用言い換え前用例の形態素(表層文字列および品詞)を、表層文字列および品詞が一致する第2の用例生成用言い換え後用例の形態素と対応づける。図14に示す例では、用例生成用言い換え前用例の形態素「品物(名詞)」が第2の用例生成用言い換え後用例の形態素「品物(名詞)」と対応づけられる(ステップS31)。
次に、用例ペア生成部34は、第1の用例生成用言い換え後用例の形態素(表層文字列および品詞)を、表層文字列および品詞が一致する第2の用例生成用言い換え後用例の形態素と対応づける。図14に示す例では、第1の用例生成用言い換え後用例の形態素「商品(名詞)」が第2の用例生成用言い換え前用例の形態素「商品(名詞)」と対応づけられる(ステップS32)。
ここで、用例ペア生成部34は、第2の用例生成用言い換え後用例の形態素のうち、用例生成用言い換え前用例および第1の用例生成用言い換え後用例の形態素との対応づけがされていない箇所(形態素)を特定(マーク)する。図14に示す例では、第2の用例生成用言い換え後用例の形態素のうちの形態素「(」および「)」がマークされる。
以下、上記した対応づけ(用例生成用言い換え前用例および第1の用例生成用言い換え後用例の形態素と第2の用例生成用言い換え後用例の形態素との対応づけ)の結果およびマークされた形態素を用例生成用差分と称する。
次に、用例ペア生成部34は、対象解析済み用例ペア(図11に示すステップS21において取得された解析済み用例ペア)に対して上記した用例生成用差分を適用することによって、当該解析済み用例ペアに含まれる言い換え後用例とは異なる新たな言い換え後用例を生成する。
用例ペア生成部34は、用例生成用用例ペアに含まれる用例生成用言い換え前用例と対象解析済み用例ペアに含まれる対象解析済み言い換え前用例とを比較する。これにより、用例ペア生成部34は、用例生成用言い換え前用例の形態素と対象解析済み言い換え前用例の形態素とを対応づける。
この際、用例生成用言い換え前用例の形態素と対象解析済み言い換え前用例の形態素との対応づけは、当該形態素の品詞が一致するか否かにより行われる。また、この対応づけは、用例生成用言い換え前用例および対象解析済み言い換え前用例の末尾の形態素から順に行われるものとする。
なお、この対応づけにおいて、用例生成用言い換え前用例の形態素の中に、対象言い換え前用例の形態素と対応づけられない形態素が存在する場合には、用例生成用用例ペアは適用されない。
図14に示す例では、用例生成用言い換え前用例の形態素「品物(名詞)」と品詞が一致する形態素が対象解析済み言い換え前用例(の形態素の中)から検索される。この場合、上記したように対象解析済み言い換え前用例の末尾の形態素から順に検索される。ここでは、用例生成用言い換え前用例の形態素「品物(名詞)」と品詞が一致する形態素として、対象解析済み言い換え前用例の末尾の形態素「配送品(名詞)」が検索される。したがって、用例生成用言い換え前用例の形態素「品物(名詞)」と対象解析済み言い換え前用例の形態素「配送品(名詞)」とが対応づけられる(ステップS33)。
次に、用例ペア生成部34は、用例生成用用例ペアに含まれる第1の用例生成用言い換え後用例と対象解析済み用例ペアに含まれる対象解析済み言い換え後用例とを比較する。これにより、用例ペア生成部34は、第1の用例生成用言い換え後用例の形態素と対象解析済み言い換え後用例の形態素とを対応づける。
なお、この第1の用例生成用言い換え後用例の形態素と対象解析済み言い換え後用例の形態素との対応づけは、上記した用例生成用言い換え前用例の形態素と対象解析済み言い換え前用例の形態素との対応づけと同様である。また、この第1の用例生成用言い換え後用例の形態素と対象解析済み言い換え後用例との形態素の対応づけにおいても、対象言い換え後用例の形態素と対応づけられない第1の用例生成用言い換え後用例の形態素が存在する場合には、用例生成用用例ペアは適用されない。
図14に示す例では、第1の用例生成用言い換え後用例の形態素「商品(名詞)」と品詞が一致する形態素が対象解析済み言い換え後用例(の形態素の中)から検索される。ここでは、第1の用例生成用言い換え後用例の形態素「商品(名詞)」と品詞が一致する形態素として、対象解析済み言い換え後用例の形態素「宅配品(名詞)」が検索される。したがって、第1の用例生成用言い換え後用例の形態素「商品(名詞)」と対象解析済み言い換え後用例の形態素「宅配品(名詞)」とが対応づけられる(ステップS34)。
ここで、用例ペア生成部34は、対象解析済み言い換え前用例および対象解析済み言い換え後用例の形態素のうち、用例生成用言い換え前用例および第1の用例生成用言い換え後用例の形態素との対応づけがされていない箇所(形態素)を特定(マーク)する。図14に示す例では、対象解析済み言い換え前用例の形態素「個人宅(名詞)」、「に(助詞)」、「配達(名詞)」、「中(接尾)」および「の(助詞)」がマークされる。
次に、用例ペア生成部34は、上記した用例生成用差分を用いて、用例生成用言い換え前用例の形態素と対応づけられた対象解析済み言い換え前用例の形態素および第1の用例生成用言い換え後用例の形態素と対応づけられた対象解析済み言い換え後用例の形態素を、第2の用例生成用言い換え後用例の形態素の該当位置とする。
具体的には、用例生成用言い換え前用例の形態素「品物(名詞)」と対応づけられた対象解析済み言い換え前用例の形態素「配送品(名詞)」は、用例生成用差分に基づいて当該用例生成用言い換え前用例の形態素「品物(名詞)」と対応づけられた第2の用例生成用言い換え後用例の形態素「品物(名詞)」の位置とされる(ステップS35)。また、第1の用例生成用言い換え後用例の形態素「商品(名詞)」と対応づけられた対象解析済み言い換え後用例の形態素「宅配品(名詞)」は、用例生成用差分に基づいて当該第1の用例生成用言い換え後用例の形態素「商品(名詞)」と対応づけられた第2の用例生成用言い換え後用例の形態素「商品(名詞)」の位置とされる(ステップS36)。
なお、用例生成用差分におけるマークされた形態素(つまり、第2の用例生成用言い換え後用例の形態素のうち、用例生成用言い換え前用例および第1の用例生成用言い換え後用例の形態素との対応づけがされていない形態素)については、表層文字列、品詞および位置等は変更されない(ステップS37)。これによれば、「宅配品(配送品)」が生成される。
一方、例えば対象解析済み言い換え前用例の形態素のうち、用例生成用言い換え前用例の形態素と対応づけられていない形態素(ここでは、形態素「個人宅(名詞)」、「に(助詞)」、「配達(名詞)」、「中(接尾)」および「の(助詞)」)は、これらの形態素の直後の形態素であって用例生成用言い換え前用例の形態素と対応づけられている形態素(ここでは、形態素「配送品(名詞)」)の直前に挿入される。
つまり、用例生成用言い換え前用例の形態素と対応づけられていない対象解析済み言い換え前用例の形態素「個人宅(名詞)」、「に(助詞)」、「配達(名詞)」、「中(接尾)」および「の(助詞)」は、これらの形態素の直後の形態素であって用例生成用言い換え前用例の形態素と対応づけられている形態素「配送品(名詞)」の直前に挿入される。
これにより、図14に示すように、新たな言い換え後用例として「宅配品(個人宅に配達中の配送品)」が生成される。
つまり、図14において説明した上記したステップS23の処理においては、第2の用例生成用言い換え後用例「商品(品物)」において、例えば当該第2の用例生成用言い換え後用例に含まれる用例生成用言い換え前用例「品物」を対象解析済み言い換え前用例「個人宅に配達中の配送品」とし、当該第2の用例生成用言い換え後用例に含まれる第1の用例生成用言い換え後用例「商品」を対象解析済み言い換え後用例「宅配品」とすることによって、新たな言い換え後用例「宅配品(個人宅に配達中の配送品)」が生成される。
再び図11に戻ると、用例ペア生成部34は、生成された新たな言い換え後用例を含む新たな用例ペアを、用例ペア登録部35に対して出力する(ステップS24)。
具体的には、用例ペア生成部34は、ステップS21において取得された用例ペアに含まれる言い換え前用例および上記したステップS22において用例ペア生成規則が適用されることによって生成された新たな言い換え後用例を含む用例ペアを、新たな用例ペアとして出力する。ここでは、言い換え前用例「個人宅に配達中の配送品」および言い換え後用例「宅配品(配送品の一種)」を含む新たな用例ペアが出力される。
また、用例ペア生成部34は、ステップS21において取得された用例ペアに含まれる言い換え前用例および上記したステップS23において用例生成用用例ペアが適用されることによって生成された新たな言い換え後用例を含む用例ペアを、新たな用例ペアとして出力する。ここでは、言い換え前用例「個人宅に配達中の配送品」および言い換え後用例「宅配品(個人宅に配達中の配送品)」を含む新たな用例ペアが出力される。
なお、上記した新たな用例ペアに加えて、ステップS21において取得された用例ペアについても用例ペア登録部35に出力される。
用例ペア生成部34によって出力された各用例ペアは、用例ペア登録部35によって用例集保持部24に登録される。これにより、例えば用例集保持部24には、上述した図4に示すように用例ペア241〜243が保持(登録)される。
上記したように本実施形態においては、ユーザによって指定された用例ペアが入力された場合、当該用例ペアに対して用例生成規則または用例生成用用例ペアが適用されることにより、新たな用例ペアが生成される。本実施形態においては、ユーザによって指定された用例ペアおよび新たな用例ペアを用いて対象文(言い換えの対象となる文)の言い換え分が生成される。
つまり、本実施形態においては、ユーザによって指定された用例ペアが入力された場合、文書中の記述の一貫性を保つための新たな用例ペアを、当該ユーザによって指定された用例ペアと同時に追加登録することができる。
したがって、本実施形態においては、ユーザによって指定された用例ペアのみを用いて対象文の言い換え文を生成すると文書中の記述の一貫性が失われるような場合であっても、当該ユーザによって指定された用例ペアから新たな用例ペアを生成し、当該新たな用例ペアを用いて対象文の言い換え文を生成することができるため、文書中の記述の一貫性が保たれるような言い換え文を生成することが可能となる。
なお、本実施形態においては、用例生成規則および用例生成用用例ペアを用いて用例ペア生成処理が実行されるものとして説明したが、この用例生成記憶および用例生成用用例ペアのうちのいずれか一方のみが用いられる構成であっても構わない。
また、本実施形態においては、用例ペア評価部33によって算出された評価値が閾値以上である場合には新たな用例ペアを生成する用例ペア生成処理が実行されないものとして説明したが、当該評価値を算出することなく全ての用例ペアに対して用例ペア生成処理が実行される構成であってもよい。
また、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。