JP3757289B2 - 言語処理システム - Google Patents

言語処理システム Download PDF

Info

Publication number
JP3757289B2
JP3757289B2 JP2004017846A JP2004017846A JP3757289B2 JP 3757289 B2 JP3757289 B2 JP 3757289B2 JP 2004017846 A JP2004017846 A JP 2004017846A JP 2004017846 A JP2004017846 A JP 2004017846A JP 3757289 B2 JP3757289 B2 JP 3757289B2
Authority
JP
Japan
Prior art keywords
data
sentence
mdiff
unit
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004017846A
Other languages
English (en)
Other versions
JP2004178615A (ja
Inventor
真樹 村田
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2004017846A priority Critical patent/JP3757289B2/ja
Publication of JP2004178615A publication Critical patent/JP2004178615A/ja
Application granted granted Critical
Publication of JP3757289B2 publication Critical patent/JP3757289B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、差分検出を行うdiff(ディフ)コマンドのような順序情報を保持したまま一致部分が最大になるように複数のデータの対応づけを行うシステムを用いた言語処理システムに関する。
従来、例えば、日本語文と英語文の対応付け、講演と予稿の対応付け、質問文と知識データの対応付け等は、判断処理としてのプログラムが複雑なものであった。
上記従来の対訳コーパスの対応付け、従来の講演と予稿の対応付け及び質問文と知識データの対応付けを行うものは、複雑なプログラムが必要であり、簡単に対応付けを行うのが困難なものであった。
本発明は上記問題点の解決を図り、diffコマンドのような順序情報を保持したまま一致部分が最大になるように複数のデータの対応づけを行うシステムを用い、対訳コーパスの対応付け、講演と予稿の対応付け、質問文と知識データ等の複数の言語データの対応付けを簡単に行えるようにすることを目的とする。
図1は本発明の言語処理システムである。図1中、1は入力手段、2は処理部、3は形態素解析手段、4は差分検出手段、5は類似度演算手段である。
本発明は、前記従来の課題を解決するため次のような手段を有する。
(1):質問文を入力する入力手段1と、前記入力された質問文を平叙文に変換する質問文変換部と、順序情報を保持したまま一致部分を最大になるように複数のデータの対応づけを行うシステムを用いて入力された前記平叙文に変換された質問文と知識データとの共通部分と差分部分を検出する差分検出手段4と、前記検出した共通部分と差分部分により、前記平叙文に変換された質問文と知識データとの類似度を求める類似度演算手段5とを備え、前記類似度演算手段5は、前記類似度の最も大きい知識データの前記平叙文に変換された質問文の疑問詞と対をなして差分部分として得られた部分を出力する。このため、質問文に対する解を容易に出力することができる。
(2):前記(1)の言語処理システムにおいて、前記差分検出手段4で検出した差分の共通部分と不一致部分の数により、前記二つの言語データの類似度を求める前記類似度演算手段を備える。このため、知識データ等の多数の言語データから類似度の大きいものを容易に選択することができる。
(3):前記(1)又は(2)の言語処理システムにおいて、前記順序情報を保持したまま一致部分を最大になるように複数のデータの対応づけを行うシステムとしてdiffコマンドを用いる。このため、質問文と知識データとの対応付けを簡単に行うことができる。
(4):質問文を入力する処理と、順序情報を保持したまま一致部分を最大になるように複数のデータの対応づけを行うシステムを用いて入力された前記質問文と知識データとの共通部分と差分部分を検出する処理と、前記検出した共通部分と差分部分により、前記質問文と知識データとの類似度を求める処理と、類似度の大きい知識データの前記質問文の疑問詞に対応する部分を出力する処理とを、コンピュータに実現させるためのプログラムとする。このため、このプログラムをコンピュータにインストールすることで、質問文に対する解を容易に出力することができる言語処理システムを容易に提供することができる。
本発明によれば次のような効果がある。
(1):類似度演算手段で、類似度の最も大きい知識データの質問文の疑問詞と対をなして差分部分として得られた部分を出力するため、質問文に対する解を容易に出力することができる。
(2):差分検出手段で検出した差分の共通部分と不一致部分の数により、二つの言語データの類似度を求める類似度演算手段を備えるため、知識データ等の多数の言語データから類似度の大きいものを容易に選択することができる。
(3):順序情報を保持したまま一致部分を最大になるように複数のデータの対応づけを行うシステムとしてdiffコマンドを用いるため、質問文と知識データとの対応付けを簡単に行うことができる。
(1):言語処理システムの説明
図1は本発明の言語処理システムの説明図である。図1において、入力手段1は、差分検出を行う言語データを入力するものである。処理部2は、入力されたデータの処理を行うものである。形態素解析手段3は、入力された言語データを辞書と文法を用いて最適な単語列に分割するものである。差分検出手段4は、対応関係のある複数の言語データをdiffコマンドを用いて差分の検出を行うものである。類似度演算手段5は、差分検出手段4を用いて質問文と知識データとの類似度を求め、類似度の大きい知識データの質問文の疑問詞に対応する部分を出力するものである。
(2):diff、 mdiff、 mdiffc の説明
(1) diffの説明
diff(ディフ)とは、UNIX(ユニックス)(登録商標)のファイル比較ツールdiffのことである。このdiffコマンドは、与えられた二つのファイルの差分を順序情報を保持したまま行を単位として出力するものである。
例えば、
今日
学校へ
いく
ということが書いてあるファイル(1) と
今日
大学へ
いく
ということが書いてあるファイル(2) があるとする。これらのdiffをとると、差分が
<学校へ
>大学へ
のような形で出力される。
(2) mdiffの説明
ところで、diffコマンドには、−Dオプションという便利なオプションがある。このオプションを付けてdiffコマンドを使うと差分部分だけでなく共通部分も出力される。つまり、ファイルのマージが実現される。また、差分部分は、C(プログラム言語)のプリプロセッサなどで使われるifdef 文などで表現されるが、ここでは、ifdef 文は、見にくいので差分部分は以下のように表示することにする。
;▽▽▽▽▽▽
(一つ目のファイルにだけある部分)
;●●●
(二つ目のファイルにだけある部分)
;△△△△△△
ここでは、“;▽▽▽▽▽▽”は差分部分の始まりを、“;△△△△△△”は差分部分の終わりを意味し、“;●●●”は差分を構成する二つのデータの境界を意味する。
本実施の形態では、−Dオプションを付けて更にifdef の部分を上記のように表示(整形)して、ファイルのマージを行う場合のdiffをmdiff (エムディフ)と呼ぶ(m はmerge の mである)。
実際に、先ほどのデータ(ファイル(1) とファイル(2) )に対して、mdiff をかけてみると、以下のような結果になる。
今日
;▽▽▽▽▽▽
学校へ
;●●●
大学へ
;△△△△△△
いく
これは「今日」が一致し、「学校へ」と「大学へ」が差分となり、「いく」がまた共通部分となっている。このように、mdiff の出力はdiffと異なり一致部分も出力されるために分かりやすい。
また、mdiff の結果からは元の二つのファイルのデータを完全に復元することができる。共通部分と、差分部分の黒丸(;●●●)の上側だけを取り出すと、
今日
学校へ
いく
のように一つ目のファイルの情報が取り出される。また、共通部分と、差分部分の黒丸(;●●●)の下側だけを取り出すと、
今日
大学へ
いく
のように二つ目のファイルの情報が取り出される。このように、もとの情報を完全に復元できることになる。
また、mdiff では、一致部分は片方のデータにあったものだけを表示し、不一致部分のみ両方のデータのものを表示するために、元の二つのデータよりもデータ量は削減できるが、上記のように元の情報を完全に復元できるために、復元できる状態でデータ量を削減するという意味ではmdiff はデータ圧縮を実現しているものといえる。
図2はmdiff の言語処理システムの説明図である。図2において、mdiff の言語処理システムには、UNIXdiff処理部11、整形部12が設けてある。UNIXdiff処理部11は、入力された二つのファイルのdiffによる差分部分と共通部分を出力するものである。整形部12は、UNIXdiff処理部11の出力を見やすい表現に整形するものである。
図3はmdiff によるフローチャートである。以下、図3の処理S1〜S4に従って説明する。
S1:UNIXdiff処理部11に、入力として二つのファイルが与えられる。
S2:UNIXdiff処理部11で、二つのファイルの一致・不一致部分を検出する(ここでのdiffはオプション−Dを付けておき一致部分の検出も行う)。
S3:整形部12において、UNIXdiff処理部11の出力を整形する。具体的には“diff−D記号”の出力のifdef 文を“;▽▽▽▽▽▽”などの見やすい表現に直す処理を行う。
S4:整形部12は、整形された結果を出力する。
(3) mdiffcの説明
次に、文字を単位としたmdiff を考える。言語処理の場合は、文字単位を差分で取りたい場合が多い。そのようなときは一度ファイルの中身の情報を、一文字ずつ改行をして出力したファイルでmdiff をとればよい。例えば先のファイル(1) の情報だと、






という形にしてから、mdiff をとればよい。この一文字単位でmdiff をかけることをmdiffcと呼ぶ(mdiffcの cはcharacter のc )。
diffの表示は見にくく、mdiff はdiffで表示される情報を完全に含むので以降の説明は、mdiff を用いて行う。
(3):差分検出及び書き換え規則の獲得の説明
(1) 複数システムの出力の差分検出の説明
以前、juman のシステムのバージョンが複数乱立しているとき、この複数のjuman の出力をmdiff によりマージして形態素解析結果の品質を向上させるようなことをしていた(参考文献、村田真樹,日本語文章における名詞の指示対象の推定,京都大学工学部博士論文,(1995)、石間衛, 藤井敦, 石川徹也, 日本語形態素・構文解析システムJEMONIの開発と評価について, 情報処理学会自然言語処理研究会 98-NL-127,(1998) 、参照)。ここでは「といったこと」の例で説明する。
「といったこと」を解析し、juman のAというバージョンの出力が
と と 助詞
いった 言う 動詞
こと こと 名詞
となっていて、Bのバージョンの出力が
と と 助詞
いった 行く 動詞
こと こと 名詞
となっているとする。「いった」という語は「行く」と「言う」の曖昧性があり、Bのバージョンではこれを誤って「行く」の方の語であると出力していたとする。ここでmdiff をとると以下のような結果となる。
と と 助詞
;▽▽▽▽▽▽
いった 言う 動詞
;●●●
いった 行く 動詞
;△△△△△△
こと こと 名詞
mdiff をとることで複数のシステムの出力の差異を容易に検出することができる。この場合、「いった」の部分が出力に差異があることが分かる。ここで、出力修正の作業者は、このような差分が検出された箇所においてどちらが正しいかを判断し、上が正しければ何もせず下が正しければ「;●●●」の先頭に“x”を付けるなどとすると決めておく。そのようにすると、“x”がなければ差分の下を、あれば差分の上の情報と区切り、記号を消すことで、その作業結果のデータから自動的にそれぞれの差分からよい結果の方を選び、それぞれのバージョンのものより高い精度の結果を生成できる。また、差分の両方が誤っている場合がよくある。このときは「;●●●」の上の方のデータを実際に書き直すとよい。
この方法を用いると、修正できないものは両方のバージョンで同じように誤るものだけであり、多くの形態素誤りを修正できる。ここで注意すべきことは異なる性質のシステムを複数用意しないといけないということである。誤り方が同じシステムの場合だと多くの誤りを見逃すことになる。
また、システムが三つある場合は、diff3 コマンドを使うとよい。diff3 は、三つのファイルの差分を検出することができる。
上記では、形態素解析を例にあげたが、他の解析でも解析結果を行単位にすることでmdiff で差分をとることができる。また、文字単位が必要ならばmdiffcを使えばよい。
ここでは、複数のシステムの出力の差分をとる話をしたが、一つをタグ付きコーパスとし、それを何かのシステムで解析した結果と比較することで、そのタグ付きコーパスの誤りを検出し修正することもできる。
(2) 差分の考察と書き換え規則の獲得の説明
ここでは、話し言葉と書き言葉のdiffの研究について記述する。対応のとれた話し言葉と書き言葉のデータを使い、それらの差分から話し言葉と書き言葉の違いを考察したり、話し言葉から書き言葉への言い換え規則、また、その逆のための規則を獲得するものである。データとしては、学会の口頭発表を話し言葉データとし、その口頭発表の内容が記されたその学会の予稿原稿を書き言葉として用いた。
図4は書き言葉データと話し言葉データの例の説明図である。例えば、書き言葉と話し言葉のデータが図4のような形で与えられたとする。ここでは、差分がとりやすいように形態素解析システム(形態素解析手段3)などで1行に1単語がはいるような形に変換してある。このような書き言葉と話し言葉のデータが与えられたとき、mdiff をとると、図5のような結果を得る。図5は書き言葉データと話し言葉データのdiffの結果の説明図である。図5の結果から、差分部分だけを抽出すると、図6のような結果が得られる。図6は差分部分の抽出の説明図である。
図6の結果から、話し言葉には「え」などが挿入されること、また話し言葉では「っていうの」という表現をいれて発話をなめらかにすることなどが分かる。また、「述べる」が「述べます」と言い換えられていることが分かる。以上のように、mdiff を使うことで話し言葉と書き言葉の差異を検出でき、また、それを考察することで、話し言葉と書き言葉の違いのようなものを調査できることが分かる。また、これらの差分は、話し言葉と書き言葉の言い換え規則としてみることもできる。
例えば、「え」の部分は、書き言葉に何もないところに話し言葉に変換する場合「え」をいれるという規則のように見ることができる。また、「述べる」と「述べます」の部分は、話し言葉に変換する場合は「述べる」を「述べます」に言い換える規則のように見ることができる。その意味でmdiff を用いることで言い換え規則、もしくは、変換規則のようなものを検出できることが分かる。
ここでは、話し言葉と書き言葉のデータを例にとったが、このようなことは様々なところで可能である。例えば、英文校閲前のテキストと英文校閲後のテキストで、mdiff をとると、どのような違いをどのように直せばよいかが分かるし、また英文校閲用の規則のようなものが獲得できる。また、要約前のテキストと要約後のテキストで、mdiff をとると、どのように要約されているかを如実に見ることができるし、要約用の規則のようなものが獲得できる。その他にも対応のとれた性質の異なるデータに対してmdiff をとると、様々な考察と、言い換え規則の獲得ができる。
(4):データのマージの説明
(1) 対訳コーパスの対応付けの説明
ここでは、対訳コーパスの対応付けを考える。条件として、それぞれのコーパスには、対応する箇所に同じ記号が入っていることを前提とする。また、対応付けの単位は、この記号で区切られた部分であるとする。
図7はコーパスの構成の説明図である。ここでは、日本語のコーパスと英語のコーパスがまだ、ばらばらに存在し、対応付けられていないとする。図7の例のように両方ともSection 1 などの同じ形をしたセクション情報が与えられているとする。このとき、日本語と英語では、同じセクションのものは、同じ内容であるとする。
この場合、これらのデータのmdiff をとることで、図8のような結果を得ることができる。図8はmdiff によって対応付けられた対訳コーパスの説明図である。図8の結果では、Section 1 などが共通部分となり、その他の部分が不一致部分となる。この不一致部分では、日本語と英語が上下に分かれて格納されることになる。このようにすることで、mdiff を用いて対訳データが作成されることになる。
ここで示したものは、文ごとなどの細かい対応付けをするものではなく、セクションなどの大雑把なもので一見役に立たないように思われるかもしれないが、文の対応付けは難しい問題で、まず予め対応がとれていることがはっきりしている章、段落のレベルで対応付けをしてから細かい対応付けをするという考え方もあり、その意味ではこのような粗い対応付けも役立つものである。
また、ここで示したものは、Section 1 などの情報を認識させて区分するだけでそのようなことをするプログラムを書くことでも同じように対訳データの対応付けを行うことができる。しかし、mdiff を使うとそのような複雑なプログラムを書くこともなく対応付けを容易に実現できるものである。
図9は対訳コーパスの言語処理システムの説明図である。図9において、対訳コーパスの言語処理システムには、mdiff 処理部21が設けてある。mdiff 処理部21は、入力された原文データと翻訳データとの二つのファイルのmdiff を出力するものである。
図10は対訳コーパスのmdiff によるフローチャートである。以下、図10の処理S11〜S13に従って説明する。
S11:mdiff 処理部21に、入力として二つのファイルが与えられる。ここではこの二つのファイルは、それぞれ英語文章、日本語文章を格納したものである。
S12:mdiff 処理部21で、この二つのファイルのmdiff をとる。
S13:mdiff 処理部21は、mdiff の結果を出力する。
(2) 講演と予稿の対応付けの説明
講演と予稿の対応付けを考える。この講演と予稿は、先の書き換え規則の獲得でも述べた書き言葉データと話し言葉データに対応する。即ち、講演は学会の口頭発表で、予稿はその口頭発表に対応する論文のことである。このような講演と予稿が与えられたとき、講演の各部分と、予稿の各部分の対応がとれると、講演を聞いている時だと、それに対応する予稿の部分を参照できるし、予稿を読んでいるときだと、それに対応する講演の部分を参照できて便利である。ここでは、この講演と予稿の対応付けをmdiff で行う説明をする。
ここでは、特に予稿の各章が講演のどこの部分に対応するかをmdiff でもとめることにする。ここで予稿と講演とは、同じ順序でなされると仮定する。また、予稿の章が認識しやすいように予稿データには、図11のように“<Chapter 1> ”のような記号を挿入しておく。図11は予稿データの構成の説明図である。この形にしておいて、予稿と講演のデータに対して、形態素解析をして各行に単語がくる状態でmdiff を使うことで、もしくは、mdiffcを使うことで、図12のような結果を得る。図12は予稿と講演のmdiff の結果の説明図である。ここで、差分部分で予稿に対応する上半分の方を、“<Chapter 1> ”のような記号を除いてすべて消し去ると図13のような結果を得る。図13は講演データへの章の情報の挿入結果の説明図である。図13では、元の講演データに対して“<Chapter 1> ”のような記号だけが挿入された形になる。つまり、講演のどの部分が予稿のどの章にあたるかが分かることになる。
これは簡単にいうと、mdiff の照合能力を用いて予稿と講演を照合し、章の情報だけ残して予稿の情報を消し去ることにより、講演データに章の情報を挿入するということを行っていることを意味する。このような予稿と講演の対応付けもmdiff を用いると簡単に行うことができる。
図14は講演と予稿の対応付けの言語処理システムの説明図である。図14において、mdiff の言語処理システムには、mdiff 処理部21、予稿削除部22が設けてある。mdiff 処理部21は、入力された二つのファイルのmdiff をとり出力するものである。予稿削除部22は、予稿側の差分部分で<Chapter 1> などの章情報のみを残して予稿データをすべて削除するものである(mdiff 記号の“;△△△△△△”なども削除する)。
図15は講演と予稿の対応付けの処理フローチャートである。以下、図15の処理S21〜S24に従って説明する。
S21:mdiff 処理部21に、入力として二つのファイルが与えられる。この二つのファイルは、それぞれ予稿、講演の文章を格納したものである。また、予稿データの方は、<Chapter 1> などの章の範囲を示す記号が付されているものとする。
S22:mdiff 処理部21で、この二つのファイルのmdiff をとる。
S23:予稿削除部22は、予稿側の差分部分で<Chapter 1> などの章情報のみを残して予稿データをすべて削除するものである。また、mdiff 記号の“;△△△△△△”なども削除する。
S24:予稿削除部22は、予稿側の差分部分で章情報のみを残して予稿データをすべて削除した結果を出力する。
(5):最適照合能力を用いた質問応答システムの説明
ここでは mdiffの最適照合能力を用いた質問応答システム(質問応答言語処理システム)について記述する。質問応答システムとは、例えば、「日本の首都はどこですか」と聞くと「東京」と答えそのものをずばり返すシステムである。
知識が自然言語で書かれていると仮定すると、基本的には質問文と知識の文を照合し、その照合結果で疑問詞に対応するところを答えとして出力すればよい。例えば先の問題だと、「日本の首都は東京です」という文を探してきて、この文で疑問詞に対応する「東京」を解として出力するのである。ここではこれを mdiffで行なうことを考える。
まず、質問文の疑問詞の部分をXに置き換え、また文末を平叙文に変換し、「日本の首都はXです」を得る。また、知識ベースから「日本の首都は東京です」を得る。ここでこの二つの mdiffc をとると以下のような結果を得る。






; ▽▽▽▽▽▽
X
; ●●●


; △△△△△△


ここでXと差分部分で組になっているものを解とすると、「東京」を正しく取り出せることになる。
ところで mdiffc を使う場合少々文に食い違いがあっても、答えを正しく取り出すことができる。例えば、知識ベースの文が「日本国の首都は東京です」であったとする。この場合は mdiffc の結果は以下のようになる。


; ▽▽▽▽▽▽
; ●●●

; △△△△△△




; ▽▽▽▽▽▽
X
; ●●●


; △△△△△△


差分部分は少し増えるがXに対応する箇所は「東京」のままで、解を正しく抽出できる。
ところで、われわれが提案する質問応答システムでは、類似度を尺度として用いた変形をくりかえし、質問文と知識データの文がより一致した状態で上記のような照合を行なう。このために類似度を定義する必要がある。
mdiff を用いた場合は、一致部分と不一致部分が認定できるので、類似度は、(一致部分の文字数)/(全文字数)のような形で定義できる。ここではmdiff により類似度を求めるようなことをしている。このように mdiffは文の類似性/類似度を求めることにも役に立つ。
ここで、「日本国」と「日本」を言い換える規則があれば「日本の首都はXです」を「日本国の首都はXです」と言い換えて照合し、不一致部分を減らすことで、より確実に解を得ることができる。
このように、 mdiffを使うだけで簡単な質問に応答する言語処理システムを、容易に構築できることは簡便さの観点から価値がある。
図16は質問応答システムの説明図である。図16において、質問応答システムには、質問文変換部31、質問文保存部32、キーワード抽出部33、データベース文検索部34、データベース文保存部35、類似度演算部36、mdiff 処理部37、質問文変形部38、データベース文変形部39、対応部出力部40が設けてある。質問文変換部31は、疑問文を平叙文にまた疑問詞をXに変換するものである。質問文保存部32は、質問文を保存するものである。キーワード抽出部33は、質問文からキーワードを抽出するものである。データベース文検索部34は、キーワードを多く含むデータベース文を検索するものである。データベース文保存部35は、データベース文検索部34で検索したデータベース文を保存するものでる。類似度演算部36は、質問文とデータベース文とを比較し類似度を求めるものである。mdiff 処理部37は、質問文とデータベース文とを1文字単位でmdiff をとるものである。質問文変形部38は、質問文の変形を行うものである。データベース文変形部39は、データベース文の変形を行うものである。対応部出力部40は、mdiff 処理部37の出力結果のうち“X”に対応するデータベース側の表現を抽出し出力するものである。
図17は質問応答の処理フローチャートである。以下、図17の処理S31〜S39に従って説明する。
S31:質問応答システムの類似度S0の値を適当に与え(通常最初は“0”とする)処理S32に移る。
S32:質問応答システムの入力として、質問文が与えられ処理S33に移る。
S33:質問文変換部31は、与えられた質問文の疑問文を平叙文に、また疑問詞をXに変換し、この変換結果の文を質問文保存部32に渡す。
S34:キーワード抽出部33にも、入力として与えられた質問文が渡され、質問文からキーワードが抽出される。この抽出されたキーワードはデータベース文検索部34に渡され処理S35に移る。
S35:データベース文検索部34で、キーワードを多く含むデータベース文が、知識ベース(図示しないデータベース)からいくつか検索され、その結果はデータベース文保存部35に格納され処理S36に移る。
S36:類似度演算部36で、質問文とデータベース文とを比較し類似度を求める。この類似度の算出にはmdiff 処理部37を用いる。即ち、類似度を求めたい質問文とデータベース文をmdiff 処理部37に入力し、このmdiff 結果により一致部分の文字数、不一致部分の文字数が求まる。類似度は、(一致部分の文字数)/(全文字数)と予めきめておく。そして、この類似度を質問文保存部32とデータベース文保存部35にあるすべての文の組に対して求め、このとき最も類似度が高かったときの類似度をSとする。次に、類似度演算部36は、類似度SがS0より大きいかどうか判断する。この判断で、類似度SがS0より大きい場合は処理S37に移り、類似度SがS0と同じとき処理S38に移る。
S37:質問文変形部38とデータベース文変形部39では、それぞれ質問文とデータベース文の変形を行い、その変形結果をそれぞれの保存部に格納する。類似度演算部36はS0に類似度Sの値をセットし、処理S36に戻る。なお、ここでの変形とは、「日本国の首都はXです」を「日本の首都はXです」にいいかえるようなことを意味している。
S38:類似度演算部36は、このときの類似度Sの値を求めるときに使ったmdiff 処理部37の出力結果を対応部出力部40に渡し処理S39に移る。
S39:対応部出力部40では、mdiff 処理部37の出力結果のうち“X”に対応するデータベース側の表現を抽出して出力する。
なお、上記実施の形態では、差分検出を行うのにdiffコマンドを用いたが、予め定めた単位で、順序情報を保持したまま一致部分を最大にする対応付けを行うシステムであれば他の差分検出手段を用いることができる。
(6):プログラムインストールの説明
入力手段1、処理部2、形態素解析手段3、差分検出手段4、類似度演算手段5、UNIXdiff処理部11、整形部12、mdiff 処理部21、予稿削除部22、質問文変換部31、質問文保存部32、キーワード抽出部33、データベース文検索部34、データベース文保存部35、類似度演算部36、mdiff 処理部37、質問文変形部38、データベース文変形部39、対応部出力部40等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータで処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。
このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、LAN等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。
本発明の言語処理システムの説明図である。 実施の形態におけるmdiff の言語処理システムの説明図である。 実施の形態におけるmdiff によるフローチャートである。 実施の形態における書き言葉データと話し言葉データの例の説明図である。 実施の形態における書き言葉データと話し言葉データのdiffの結果の説明図である。 実施の形態における差分部分の抽出の説明図である。 実施の形態におけるコーパスの構成の説明図である。 実施の形態におけるmdiff によって対応付けられた対訳コーパスの説明図である。 実施の形態における対訳コーパスの言語処理システムの説明図である。 実施の形態における対訳コーパスのmdiff によるフローチャートである。 実施の形態における予稿データの構成の説明図である。 実施の形態における予稿と講演のmdiff の結果の説明図である。 実施の形態における講演データへの章の情報の挿入結果の説明図である。 実施の形態における講演と予稿の対応付けの言語処理システムの説明図である。 実施の形態における講演と予稿の対応付けの処理フローチャートである。 実施の形態における質問応答システムの説明図である。 実施の形態における質問応答の処理フローチャートである。
符号の説明
1 入力手段
2 処理部
3 形態素解析手段
4 差分検出手段
5 類似度演算手段

Claims (3)

  1. 質問文を入力する入力手段と、
    前記入力された質問文を平叙文に変換する質問文変換部と、
    順序情報を保持したまま一致部分を最大になるように複数のデータの対応づけを行うシステムを用いて前記平叙文に変換された質問文と知識データとの共通部分と差分部分を検出する差分検出手段と、
    前記検出した共通部分と差分部分により、前記平叙文に変換された質問文と知識データとの類似度を求める類似度演算手段とを備え、
    前記類似度演算手段は、前記類似度の最も大きい知識データの前記平叙文に変換された質問文の疑問詞と対をなして差分部分として得られた部分を出力することを特徴とした言語処理システム。
  2. 前記差分検出手段で検出した差分の共通部分と不一致部分の数により、前記二つの言語データの類似度を求める前記類似度演算手段を備えることを特徴とした請求項1記載の言語処理システム。
  3. 前記順序情報を保持したまま一致部分を最大になるように複数のデータの対応づけを行うシステムとしてdiffコマンドを用いることを特徴とした請求項1又は2記載の言語処理システム。
JP2004017846A 2004-01-27 2004-01-27 言語処理システム Expired - Lifetime JP3757289B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004017846A JP3757289B2 (ja) 2004-01-27 2004-01-27 言語処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004017846A JP3757289B2 (ja) 2004-01-27 2004-01-27 言語処理システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001311329A Division JP2003122747A (ja) 2001-10-09 2001-10-09 言語処理システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2004178615A JP2004178615A (ja) 2004-06-24
JP3757289B2 true JP3757289B2 (ja) 2006-03-22

Family

ID=32709450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004017846A Expired - Lifetime JP3757289B2 (ja) 2004-01-27 2004-01-27 言語処理システム

Country Status (1)

Country Link
JP (1) JP3757289B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6743168B2 (ja) * 2016-10-28 2020-08-19 楽天株式会社 サーバ装置、サービス方法、プログラム、及び、非一時的なコンピュータ読取可能な情報記録媒体

Also Published As

Publication number Publication date
JP2004178615A (ja) 2004-06-24

Similar Documents

Publication Publication Date Title
JP3973549B2 (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
US5850561A (en) Glossary construction tool
US7979265B2 (en) Machine translation system, method and program for translating text having a structure
JP4694111B2 (ja) 用例ベースの機械翻訳システム
US8423346B2 (en) Device and method for interactive machine translation
US20110093254A1 (en) Method and System for Using Alignment Means in Matching Translation
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US20140156258A1 (en) Foreign language writing support apparatus and method
CN112925563B (zh) 一种面向代码重用的源代码推荐方法
Wemhoener et al. Creating an improved version using noisy OCR from multiple editions
US11568150B2 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space
JP5099367B2 (ja) 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム
Lawson Collecting, aligning and analysing parallel corpora
JP3740541B2 (ja) 言語処理システム及びプログラム
Villegas et al. Exploiting existing modern transcripts for historical handwritten text recognition
JP4239850B2 (ja) 映像キーワード抽出方法及び装置及びプログラム
JP3757289B2 (ja) 言語処理システム
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
CN115908027A (zh) 一种金融长文本复核系统的金融数据一致性审核模块
JP2003122747A (ja) 言語処理システム及びプログラム
JP3721397B2 (ja) 話し言葉の書き言葉への変換装置
JP3353647B2 (ja) 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体
Brglez Dispersing the clouds of doubt: can cosine similarity of word embeddings help identify relation-level metaphors in Slovene?
JP4059501B2 (ja) 自然語辞書更新装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050628

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050913

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051129

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350