JP3757289B2 - 言語処理システム - Google Patents
言語処理システム Download PDFInfo
- Publication number
- JP3757289B2 JP3757289B2 JP2004017846A JP2004017846A JP3757289B2 JP 3757289 B2 JP3757289 B2 JP 3757289B2 JP 2004017846 A JP2004017846 A JP 2004017846A JP 2004017846 A JP2004017846 A JP 2004017846A JP 3757289 B2 JP3757289 B2 JP 3757289B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- sentence
- mdiff
- unit
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は本発明の言語処理システムの説明図である。図1において、入力手段1は、差分検出を行う言語データを入力するものである。処理部2は、入力されたデータの処理を行うものである。形態素解析手段3は、入力された言語データを辞書と文法を用いて最適な単語列に分割するものである。差分検出手段4は、対応関係のある複数の言語データをdiffコマンドを用いて差分の検出を行うものである。類似度演算手段5は、差分検出手段4を用いて質問文と知識データとの類似度を求め、類似度の大きい知識データの質問文の疑問詞に対応する部分を出力するものである。
(1) diffの説明
diff(ディフ)とは、UNIX(ユニックス)(登録商標)のファイル比較ツールdiffのことである。このdiffコマンドは、与えられた二つのファイルの差分を順序情報を保持したまま行を単位として出力するものである。
今日
学校へ
いく
ということが書いてあるファイル(1) と
今日
大学へ
いく
ということが書いてあるファイル(2) があるとする。これらのdiffをとると、差分が
<学校へ
>大学へ
のような形で出力される。
ところで、diffコマンドには、−Dオプションという便利なオプションがある。このオプションを付けてdiffコマンドを使うと差分部分だけでなく共通部分も出力される。つまり、ファイルのマージが実現される。また、差分部分は、C(プログラム言語)のプリプロセッサなどで使われるifdef 文などで表現されるが、ここでは、ifdef 文は、見にくいので差分部分は以下のように表示することにする。
(一つ目のファイルにだけある部分)
;●●●
(二つ目のファイルにだけある部分)
;△△△△△△
ここでは、“;▽▽▽▽▽▽”は差分部分の始まりを、“;△△△△△△”は差分部分の終わりを意味し、“;●●●”は差分を構成する二つのデータの境界を意味する。
;▽▽▽▽▽▽
学校へ
;●●●
大学へ
;△△△△△△
いく
これは「今日」が一致し、「学校へ」と「大学へ」が差分となり、「いく」がまた共通部分となっている。このように、mdiff の出力はdiffと異なり一致部分も出力されるために分かりやすい。
今日
学校へ
いく
のように一つ目のファイルの情報が取り出される。また、共通部分と、差分部分の黒丸(;●●●)の下側だけを取り出すと、
今日
大学へ
いく
のように二つ目のファイルの情報が取り出される。このように、もとの情報を完全に復元できることになる。
次に、文字を単位としたmdiff を考える。言語処理の場合は、文字単位を差分で取りたい場合が多い。そのようなときは一度ファイルの中身の情報を、一文字ずつ改行をして出力したファイルでmdiff をとればよい。例えば先のファイル(1) の情報だと、
今
学
校
へ
い
く
という形にしてから、mdiff をとればよい。この一文字単位でmdiff をかけることをmdiffcと呼ぶ(mdiffcの cはcharacter のc )。
(1) 複数システムの出力の差分検出の説明
以前、juman のシステムのバージョンが複数乱立しているとき、この複数のjuman の出力をmdiff によりマージして形態素解析結果の品質を向上させるようなことをしていた(参考文献、村田真樹,日本語文章における名詞の指示対象の推定,京都大学工学部博士論文,(1995)、石間衛, 藤井敦, 石川徹也, 日本語形態素・構文解析システムJEMONIの開発と評価について, 情報処理学会自然言語処理研究会 98-NL-127,(1998) 、参照)。ここでは「といったこと」の例で説明する。
と と 助詞
いった 言う 動詞
こと こと 名詞
となっていて、Bのバージョンの出力が
と と 助詞
いった 行く 動詞
こと こと 名詞
となっているとする。「いった」という語は「行く」と「言う」の曖昧性があり、Bのバージョンではこれを誤って「行く」の方の語であると出力していたとする。ここでmdiff をとると以下のような結果となる。
;▽▽▽▽▽▽
いった 言う 動詞
;●●●
いった 行く 動詞
;△△△△△△
こと こと 名詞
mdiff をとることで複数のシステムの出力の差異を容易に検出することができる。この場合、「いった」の部分が出力に差異があることが分かる。ここで、出力修正の作業者は、このような差分が検出された箇所においてどちらが正しいかを判断し、上が正しければ何もせず下が正しければ「;●●●」の先頭に“x”を付けるなどとすると決めておく。そのようにすると、“x”がなければ差分の下を、あれば差分の上の情報と区切り、記号を消すことで、その作業結果のデータから自動的にそれぞれの差分からよい結果の方を選び、それぞれのバージョンのものより高い精度の結果を生成できる。また、差分の両方が誤っている場合がよくある。このときは「;●●●」の上の方のデータを実際に書き直すとよい。
ここでは、話し言葉と書き言葉のdiffの研究について記述する。対応のとれた話し言葉と書き言葉のデータを使い、それらの差分から話し言葉と書き言葉の違いを考察したり、話し言葉から書き言葉への言い換え規則、また、その逆のための規則を獲得するものである。データとしては、学会の口頭発表を話し言葉データとし、その口頭発表の内容が記されたその学会の予稿原稿を書き言葉として用いた。
(1) 対訳コーパスの対応付けの説明
ここでは、対訳コーパスの対応付けを考える。条件として、それぞれのコーパスには、対応する箇所に同じ記号が入っていることを前提とする。また、対応付けの単位は、この記号で区切られた部分であるとする。
講演と予稿の対応付けを考える。この講演と予稿は、先の書き換え規則の獲得でも述べた書き言葉データと話し言葉データに対応する。即ち、講演は学会の口頭発表で、予稿はその口頭発表に対応する論文のことである。このような講演と予稿が与えられたとき、講演の各部分と、予稿の各部分の対応がとれると、講演を聞いている時だと、それに対応する予稿の部分を参照できるし、予稿を読んでいるときだと、それに対応する講演の部分を参照できて便利である。ここでは、この講演と予稿の対応付けをmdiff で行う説明をする。
ここでは mdiffの最適照合能力を用いた質問応答システム(質問応答言語処理システム)について記述する。質問応答システムとは、例えば、「日本の首都はどこですか」と聞くと「東京」と答えそのものをずばり返すシステムである。
本
の
首
都
は
; ▽▽▽▽▽▽
X
; ●●●
東
京
; △△△△△△
で
す
ここでXと差分部分で組になっているものを解とすると、「東京」を正しく取り出せることになる。
本
; ▽▽▽▽▽▽
; ●●●
国
; △△△△△△
の
首
都
は
; ▽▽▽▽▽▽
X
; ●●●
東
京
; △△△△△△
で
す
差分部分は少し増えるがXに対応する箇所は「東京」のままで、解を正しく抽出できる。
入力手段1、処理部2、形態素解析手段3、差分検出手段4、類似度演算手段5、UNIXdiff処理部11、整形部12、mdiff 処理部21、予稿削除部22、質問文変換部31、質問文保存部32、キーワード抽出部33、データベース文検索部34、データベース文保存部35、類似度演算部36、mdiff 処理部37、質問文変形部38、データベース文変形部39、対応部出力部40等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータで処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。
2 処理部
3 形態素解析手段
4 差分検出手段
5 類似度演算手段
Claims (3)
- 質問文を入力する入力手段と、
前記入力された質問文を平叙文に変換する質問文変換部と、
順序情報を保持したまま一致部分を最大になるように複数のデータの対応づけを行うシステムを用いて前記平叙文に変換された質問文と知識データとの共通部分と差分部分を検出する差分検出手段と、
前記検出した共通部分と差分部分により、前記平叙文に変換された質問文と知識データとの類似度を求める類似度演算手段とを備え、
前記類似度演算手段は、前記類似度の最も大きい知識データの前記平叙文に変換された質問文の疑問詞と対をなして差分部分として得られた部分を出力することを特徴とした言語処理システム。 - 前記差分検出手段で検出した差分の共通部分と不一致部分の数により、前記二つの言語データの類似度を求める前記類似度演算手段を備えることを特徴とした請求項1記載の言語処理システム。
- 前記順序情報を保持したまま一致部分を最大になるように複数のデータの対応づけを行うシステムとしてdiffコマンドを用いることを特徴とした請求項1又は2記載の言語処理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004017846A JP3757289B2 (ja) | 2004-01-27 | 2004-01-27 | 言語処理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004017846A JP3757289B2 (ja) | 2004-01-27 | 2004-01-27 | 言語処理システム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001311329A Division JP2003122747A (ja) | 2001-10-09 | 2001-10-09 | 言語処理システム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004178615A JP2004178615A (ja) | 2004-06-24 |
JP3757289B2 true JP3757289B2 (ja) | 2006-03-22 |
Family
ID=32709450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004017846A Expired - Lifetime JP3757289B2 (ja) | 2004-01-27 | 2004-01-27 | 言語処理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3757289B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6743168B2 (ja) * | 2016-10-28 | 2020-08-19 | 楽天株式会社 | サーバ装置、サービス方法、プログラム、及び、非一時的なコンピュータ読取可能な情報記録媒体 |
-
2004
- 2004-01-27 JP JP2004017846A patent/JP3757289B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2004178615A (ja) | 2004-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3973549B2 (ja) | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 | |
US5850561A (en) | Glossary construction tool | |
US7979265B2 (en) | Machine translation system, method and program for translating text having a structure | |
JP4694111B2 (ja) | 用例ベースの機械翻訳システム | |
US8423346B2 (en) | Device and method for interactive machine translation | |
US20110093254A1 (en) | Method and System for Using Alignment Means in Matching Translation | |
US7647303B2 (en) | Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program | |
US20140156258A1 (en) | Foreign language writing support apparatus and method | |
CN112925563B (zh) | 一种面向代码重用的源代码推荐方法 | |
Wemhoener et al. | Creating an improved version using noisy OCR from multiple editions | |
US11568150B2 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space | |
JP5099367B2 (ja) | 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム | |
Lawson | Collecting, aligning and analysing parallel corpora | |
JP3740541B2 (ja) | 言語処理システム及びプログラム | |
Villegas et al. | Exploiting existing modern transcripts for historical handwritten text recognition | |
JP4239850B2 (ja) | 映像キーワード抽出方法及び装置及びプログラム | |
JP3757289B2 (ja) | 言語処理システム | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
JP6056489B2 (ja) | 翻訳支援プログラム、方法、および装置 | |
CN115908027A (zh) | 一种金融长文本复核系统的金融数据一致性审核模块 | |
JP2003122747A (ja) | 言語処理システム及びプログラム | |
JP3721397B2 (ja) | 話し言葉の書き言葉への変換装置 | |
JP3353647B2 (ja) | 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体 | |
Brglez | Dispersing the clouds of doubt: can cosine similarity of word embeddings help identify relation-level metaphors in Slovene? | |
JP4059501B2 (ja) | 自然語辞書更新装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050628 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050913 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051129 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |