JP2003263430A - 言語データ収集方法 - Google Patents

言語データ収集方法

Info

Publication number
JP2003263430A
JP2003263430A JP2002064099A JP2002064099A JP2003263430A JP 2003263430 A JP2003263430 A JP 2003263430A JP 2002064099 A JP2002064099 A JP 2002064099A JP 2002064099 A JP2002064099 A JP 2002064099A JP 2003263430 A JP2003263430 A JP 2003263430A
Authority
JP
Japan
Prior art keywords
sentence
cell
cells
language data
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002064099A
Other languages
English (en)
Inventor
Fumiaki Sugaya
史昭 菅谷
Yumiko Kaneshiro
由美子 金城
Toshiyuki Takezawa
寿幸 竹澤
Genichiro Kikui
玄一郎 菊井
Seiichi Yamamoto
誠一 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2002064099A priority Critical patent/JP2003263430A/ja
Publication of JP2003263430A publication Critical patent/JP2003263430A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【構成】 英語で表記された種文が提示されると(S
1)、その日本語による翻訳文(日本文)が入力される
(S3)。たとえば、少なくとも2つ以上の第1所定数
の文が入力されると(S5)、単語或いは語句のような
文字列毎に区分けされる。このとき、同じ文字列は、同
じセルにまとめられ、異なる文字列は異なるセルに入力
(分配)される(S7)。そして、各セル毎に文字列の
類義語や関連語のような部分情報が追加される(S1
1)。このように、セルに分けて単語或いは語句すなわ
ち言語データが収集される。 【効果】 セルに分けて単語や語句を収集し、セルに類
義語などを追加するので、大規模なデータを効率よく収
集できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は言語データ収集方法に
関し、特にたとえばデータベースを構築するため任意の
言語に対応する言語データを収集する、言語データ収集
方法に関する。
【0002】
【従来の技術】近年、開発が進んでいる翻訳システム
は、たとえば、英語から日本語への翻訳或いはその逆を
実行するものである。このような翻訳システムでは、正
しく翻訳するために、たとえば1つの英文(種文)に対
応する複数の翻訳文(日本文)を収集する必要がある。
したがって、収集した文の数が多いほど、日本文から英
文への翻訳が正確に行われていた。
【0003】
【発明が解決しようとする課題】しかし、この従来技術
では、1つの英文に対して複数の日本文を用意する必要
があるため、データ量が膨大であり、漏れなく日本語を
収集しようとすると、収集に多大な時間を要するという
問題があった。一方、短時間で収集を終えるために、収
集する日本文の数を少なくした場合には、日本文(言
語)の様々な態様(変化)に対応することができず、翻
訳機能が低下するという問題もあった。
【0004】それゆえに、この発明の主たる目的は、効
率よく大規模なデータを収集できる、新規な言語データ
収集方法を提供することである。
【0005】
【課題を解決するための手段】この発明は、データベー
スを構築するため任意の言語に対応する言語データを収
集する言語データ収集方法であって、(a) 提示される種
文に対応して入力される2以上の第1所定数の文のそれ
ぞれを文字列毎に区切り、(b) 同じ文字列同士を同じセ
ルにまとめるとともに、異なる文字列を異なるセルに入
力し、そして(c) 少なくともセルに含まれる文字列に部
分情報を追加する、言語データ収集方法である。
【0006】
【作用】任意の言語で表記された種文が提示されると、
その翻訳文のような文が入力される。ただし、任意の言
語と同じ言語の文を入力してもよく、この場合には、種
文と同一でないが、文全体として同じ意味を表す文が入
力される。少なくとも2つ以上の第1所定数の文が入力
されると、単語或いは語句のような文字列毎に区分けさ
れる。このとき、同じ文字列は、同じセルにまとめら
れ、異なる文字列は異なるセルに入力(分配)される。
そして、各セル毎に文字列の類義語や関連語のような部
分情報が追加される。このように、セルに分けて単語或
いは語句すなわち言語データが収集される。
【0007】たとえば、入力する文は、任意の言語につ
いての翻訳文を予め収集しておいたものであり、それを
順に入力するようにすればよい。
【0008】また、言語データを収集した結果構築され
たデータベースから種文と類似度が閾値以上である文を
入力するようにすることもできる。このため、データベ
ースを有効利用でき、効率よく言語データを収集するこ
とができる。
【0009】上述したように、たとえば、部分情報には
類義語が含まれ、セルに含まれる文字列の類義語が類義
語辞書から検索され、当該セルに追加される。したがっ
て、バリエーションに富んだ言語の収集が可能である。
【0010】また、部分情報には関連語が含まれ、セル
に含まれる文字列の関連語が関連語辞書から検索され、
当該セルに追加される。このため、文の一部(文字列)
のバリエーションだけでなく、文自体のバリエーション
を増やすことができる。
【0011】さらに、文が入力され、部分情報を追加し
た場合には、さらにセルを整理して区分けすることがで
きる。たとえば、1つのセルに含まれる複数の語句につ
いて一致する部分と不一致の部分とに区分けすることが
できる。このように、さらにセルを増加させ、部分情報
を追加することにより、さらにバリエーションの豊富な
言語データを収集できる。
【0012】このような処理は、文が入力される毎に実
行する必要はなく、第2所定数の文が入力されてときに
実行するようにせてもよい。この場合は、文が入力され
る毎にセルを整理する場合よりも、時間を短縮すること
ができる。
【0013】
【発明の効果】この発明によれば、セルに分けて単語或
いは語句を収集するので、効率よく言語データを収集す
ることができる。つまり、大規模なデータであっても短
時間で収集可能である。
【0014】この発明の上述の目的,その他の目的,特
徴および利点は、図面を参照して行う以下の実施例の詳
細な説明から一層明らかとなろう。
【0015】
【実施例】図1を参照して、この実施例の言語データ収
集装置10は、パーソナルコンピュータ或いはワークス
テーションのようなコンピュータ12を含む。コンピュ
ータ12には、CPU14が設けられ、CPU14は内
部バス(以下、単に「バス」という。)16を介してハ
ードディスクドライブ(HDD)18およびRAMのよ
うなメモリ20に接続される。また、コンピュータ12
は、ドライバ22および通信回路24を含み、これらも
バス16を介してCPU14に接続される。
【0016】コンピュータ12には、モニタ26、キー
ボード28およびデータベース30が接続される。モニ
タ26は、図示しないインターフェイスを介してドライ
バ22に接続される。また、キーボード28は、図示し
ないインターフェイスを介してCPU14に接続され
る。さらに、データベース30は、収集した言語データ
を蓄積するデータベース(以下、「言語DB」とい
う。)であり、図示しないインターフェイス(およびバ
ス16)を介して、CPU14に接続される。
【0017】なお、図示は省略するが、コンピュータ1
2は、通信回路24を用いて、インターネット、イント
ラネット、公衆電話網或いは携帯電話網のようなネット
ワークに接続できる。
【0018】また、図1では省略するが、コンピュータ
12には、FDドライブ、CDドライブやMOドライブ
が設けられる。
【0019】さらに、図1では省略するが、コンピュー
タ12には、キーボード28の他に、コンピュータマウ
ス、音声入力装置或いはスタイラスペンを用いるような
ペン入力装置(タッチパネルを含む。)などの様々な入
力装置が接続される。
【0020】さらにまた、この実施例では、言語DB3
0をコンピュータ12の外部に直接接続するようにして
いるが、言語DB30はコンピュータ12内部に設ける
ようにしてもよく、通信回路24を用いてコンピュータ
12と通信可能にネットワーク上に設けるようにしても
よい。
【0021】このような構成で言語データの収集が実行
される。具体的には、ユーザが言語データの収集を指示
すると、これに応じて、CPU14は、HDD18にイ
ンストール(プログラミング)されている言語データを
収集するためのプログラム(ソフト)を起動し、図2に
示すような言語データの収集処理を実行する。
【0022】図2に示すように、ステップS1では、C
PU14は、言語データを収集するための種文を表示す
る。つまり、CPU14は、HDD18に記憶された或
いはユーザによって入力された種文のデータ(テキスト
データ)を読み出し、ドライバ22を駆動してモニタ2
6に出力する。
【0023】たとえば、この実施例では、“How m
any hours will you be lat
e?”という種文が提示される。このように、英文の種
文を提示するのは、言語データを収集する際に、日本文
で表記された種文に引きずられてしまうのを防止して、
収集する言語(この実施例では、日本語)のバリエーシ
ョンを増やすためである。
【0024】なお、種文は、予め蓄積(収録)しておい
た英語のデータベース(英語データベース)から1つの
英文を選択するようにしてもよい。この場合、種文の英
語データベースはコンピュータ12に直接接続されても
よく、ネットワークを介して間接的に接続されてもよ
い。
【0025】このような種文が提示されると、続いて、
CPU14は、ステップS3で文を入力する。この実施
例では、種文の日本語による翻訳文(日本文)が入力さ
れる。たとえば、ユーザがキーボード28等の入力装置
を用いて入力した文を入力することができる。また、予
め収集しておいた文をHDD18に記憶しておき、そこ
から文を入力したり、通信回路24を介して他の機器や
インターネット上の任意のサイトやデータベースから取
得した文を入力したりしてもよく、さらには、音声認識
機能を設けることにより音声によって文を入力するよう
にしてもよい。このように、文の入力源および入力方法
は様々である。
【0026】なお、HDD18と同様に、FD、CD或
いはMOのような外部記憶媒体に予め文を記憶してお
き、そこから入力することもできる。
【0027】ただし、収集する言語と同じ言語の種文を
提示するようにしてもよく、この場合には、種文と同一
(完全一致)ではないが、文全体として意味が同じ文が
入力されることになる。
【0028】また、入力する文は、種文についての翻訳
文をそのまま入力するようにしているが、種文(または
その翻訳文)と逆の意味になる文や関連する文を入力す
るようにしてもよい。たとえば、種文が日本文で提示さ
れている場合について説明すると、“何時間くらい遅れ
そうですか”という種文に対して、“何時間くらい早く
なりそうですか”というような逆の意味の文を入力する
ことができる。また、“ホテルを予約する”という種文
に対して、“列車の切符を購入する”というような関連
する文を入力することもできる。
【0029】ここで、関連する文とは、互いに類似(類
義)したり、反対の意義(意味)を表したりする文では
なく、何らかの関係(関連)がある文を意味する。つま
り、上述の例を用いて説明すると、“ホテルを予約す
る”と“列車の切符を購入する”という文は互いに意味
が異なる文であり、また、反対の意義を表す文ではない
が、「旅行」というカテゴリでは、いずれも使用される
場合があり、互いに関連すると言える。
【0030】続くステップS5では、入力された文の数
(入力文の数)がN1(N1は2以上の自然数)以上で
あるかどうかを判断する。ステップS5で“NO”であ
れば、つまり入力文の数がN1より小さければ、そのま
まステップS3に戻る。一方、ステップS5で“YE
S”であれば、つまり入力文の数がN1以上であれば、
ステップS7で文を整理する。
【0031】この実施例では、N1=2であり、たとえ
ば、“何時間遅れますか”および“何時間くらい遅れま
すか”という2つの文が入力されたとする。また、ステ
ップS7では、入力された2つの文について、周知のD
Pマッチング法により同じ単語または語句などの文字列
を判別した後、セルに区分けされる。
【0032】つまり、DPマッチング法を用いることに
より、2つの文の全体に渡って、できる限りもっともら
しいマッチングを行うことができる。たとえば、第1文
“今日は天気です”と第2文“今日雨ですね”とのDP
マッチングについて考える。ただし、簡単のため、第1
文および第2文は単語系列で表されているとする。した
がって、第1文は、“今日”、“は”、“天気”、“で
す”と分割することができる。一方、第2文は、“今
日”、“雨”、“です”、“ね”と分割することができ
る。これらは、表1で示すように表すことができる。
【0033】
【表1】
【0034】ここで、第1文を基準として考えると、第
2文では“は”は削除され、“天気”は“雨”に置換さ
れ、“ね”が挿入されている。この実施例では、「削
除」、「置換」および「挿入」の総和がDPマッチング
による2つの文の間における距離(以下、「文間距離」
という。)として定義する。したがって、「削除」、
「置換」および「挿入」のような誤差(距離)をそれぞ
れ「1」とすると、上述の第1文と第2文との文間距離
は「3」である。
【0035】つまり、ステップS7における文の整理で
は、2つの文を比較し、近い表現を対応づける。このと
き、文間距離は、2つの文字列間の編集距離を使った上
述のDPマッチングにより、算出される。
【0036】なお、上述のDPマッチングの説明におい
ては、簡単に説明するために、予め文が単語に区切られ
ているものとして説明したが、文を単語に区切るために
は周知の形態素解析を実行する必要がある。つまり、こ
の形態素解析がステップS7の前提として実行(処理)
されるのである。このとき、形態素解析において、文を
語幹と助詞や助動詞などの付属語とに分けるようにすれ
ば、2つの文についての文間距離を比較的正確に算出す
ることができる。また、漢字、かな、カタカナ、数字の
ような分類で文を分けるようにしてもよい。
【0037】また、この実施例では、文間距離として
は、単語同士の完全一致・不一致を利用する編集距離を
DPマッチングにより求めるようにしてあるが、単語の
意味辞書に付されている意味コードを利用して意味コー
ド間の距離で求めるようにしてもよい。
【0038】このようにして、文が整理されると、表2
に示すように、同じ文字列は同じ文字列を内容とする1
つのセルにまとめられ、異なる文字列はそれぞれれ1つ
のセルに入力(分配)される。
【0039】
【表2】
【0040】ただし、2つの文を比較したときに、対応
する文字列(単語または語句)が存在しない場合には、
対応する文字列が空白であることを意味する“−”で表
すことにする。また、セルは左から順にC1,C2,C
3,…,Cn、すなわちCi(i=1,2,3,…,
n)と表すことにする。
【0041】このように整理された文がステップS9に
おいて提示される。すなわち、モニタ26に表示され
る。続くステップS11では、後で詳細に説明する部分
情報の追加処理を実行する。この部分情報は、この実施
例では、1つのセルに存在する(含まれる)文字列と意
義の類似する文字列すなわち類義語を意味する。
【0042】つまり、ステップS11では、CPU14
は、HDD18に格納された意義の類似する語句や単語
についての辞書(類義語辞書)18aを参照して、セル
C1〜C3のそれぞれに部分情報を追加する。
【0043】ここで、類義語辞書とは、一般に書店で販
売されている類義語辞書を電子データにしたものであ
り、この類義語辞書を用いて或る文字列(単語や語句)
を引くと、その文字列についての類義語を検索すること
ができる。たとえば、“程度”という単語を引くと、
“くらい”、“ぐらい”、“ほど”のような類義語を検
索することができる。つまり、ステップS11では、こ
のように検索された類義語が元の文字列が属するセルに
追加されるのである。
【0044】続くステップS13では、部分情報の追加
された文を提示(表示)する。たとえば、この実施例で
は、セルC2に部分情報が追加された例を表3に示し、
続いて、セルC3に部分情報が追加された例を表4に示
す。
【0045】
【表3】
【0046】
【表4】
【0047】なお、セルC1については、“何時間”の
類義語が存在しないため、部分情報すなわち類義語は追
加されてない。
【0048】続いて、ステップS15で次の文が有るか
どうかを判断する。ステップS15で“YES”であれ
ば、つまり次の文が有れば、ステップS3に戻る。一
方、ステップS15で“NO”であれば、つまり次の文
が無ければ、ステップS17で結果を言語DB30に登
録して処理を終了する。つまり、表4に示したようなセ
ルに分割(区分け)された言語のデータ(言語データ)
が、たとえば、種文に対応づけて言語DB30に記録さ
れる。このようにして、言語データが収集される。
【0049】このようにして、言語データが収集される
が、表4に着目すると、収集された文(この実施例で
は、種文の翻訳文)は、セルC1、セルC2およびセル
C3の順に任意の1つの文字列を抽出することにより生
成される。たとえば、セルC1から“何時間”、セルC
2から“ぐらい”、セルC3から“遅れそうですか”を
抽出して、セルC1、C2、C3の順に並べると、“何
時間ぐらい遅れそうですか”という文になる。つまり、
表4では、セルC1に1つの文字列が含まれ、セルC2
に5つの文字列(空欄を含む。)が含まれ、セル3に2
つの文字列が含まれるため、10(1×5×2)通りの
文を生成することができるのである。
【0050】また、表4に示すような収集結果を用い
て、文全体或いは文の一部を展開表示することができ
る。たとえば、表4の収集結果をモニタ28に表示し、
入力装置を用いて、セルC1〜C3を選択し、展開の指
示を与えると、“何時間遅れますか”、“何時間遅れそ
うですか”、“何時間くらい遅れますか”、…というよ
うに、10通りの文が表示される。また、セルC2およ
びセルC3を選択し、展開指示を入力した場合には、セ
ルC2とセルC3との分割が元に戻され、すなわちセル
C2とセルC3とが1つのセルにまとめられ、“遅れま
すか”、“遅れそうですか”、“くらい遅れますか”、
“くらい遅れそうですか”、“ぐらい遅れますか”、
“ぐらい遅れそうですか”、…というように、すべての
組み合わせ(文字列の結合)が表示される。
【0051】なお、このように、文全体或いは文の一部
を展開表示した結果を、言語データとともに、或いは上
書きして言語DB30に登録するようにしてもよい。
【0052】図3を参照して、図2のステップS11に
おける部分情報の追加処理が開始されると、CPU14
は、ステップS21でセルの番号iを初期化(i=1)
する。続くステップS23では、セルCi内の文字列の
類義語を類義語辞書データ18aから検索する。そし
て、ステップS25では、検索した結果から類義語があ
るかどうかを判断する。
【0053】ステップS25で“NO”であれば、つま
り類義語がなければ、そのままステップS29に進む。
一方、ステップS25で“YES”であれば、つまり類
義語があれば、ステップS27で当該セルCiに検索し
た類義語を追加してステップS29に進む。
【0054】ステップS29では、セルの番号iをイン
クリメント(i=i+1)する。続くステップS31で
は、セルの番号iが現在のセルの数(セル数)よりも大
きいかどうかを判断する。つまり、すべてのセルについ
て部分情報を追加したかどうかを判断する。
【0055】ステップS31で“NO”であれば、つま
りセルの番号iが現在のセル数より小さければ、すべて
のセルについて部分情報を追加していないと判断し、ス
テップS23に戻って、次のセルについて部分情報を追
加する。一方、ステップS31で“YES”であれば、
つまりセルの番号iが現在のセル数よりも大きければ、
すべてのセルについて部分情報を追加したと判断し、部
分情報の追加処理をリターンする。
【0056】ただし、表5に示すように、セル内の情報
についてDPマッチングを使用すれば、さらにセルを増
加させることもできる。これにより、言語データのバリ
エーションを増加させることができる。
【0057】
【表5】
【0058】つまり、図4に示すように、図2に示した
ステップS13とステップS15との間に、各セルCi
についてDPマッチングを実行する処理すなわちセルを
整理するステップS14aおよびその結果からセルが増
加したかどうかを判断するステップS14bを設けるよ
うにすればよい。そして、セルが増加していなければ、
ステップS15で次の文があるかどうかを判断し、セル
が増加していれば、ステップS11に戻って部分情報の
追加を行えばよい。
【0059】なお、図4においては、図面の都合上、ス
タートからステップS9までの処理を省略して示してあ
るが、これは図2と同様である。
【0060】たとえば、セルが増加した場合には、さら
にそのセルについて類義語を追加することができる。つ
まり、動詞や助動詞或いはそれらの結合の活用形(変
形)を類義語として扱うようにしておき、それらについ
ても類義語辞書に含んでおけば、部分情報として追加す
ることができる。したがって、表5において、“遅れ”
が含まれるセルC3に部分情報(たとえば、“遅くな
り”)が追加されると、表6のようになり、したがっ
て、言語データのバリエーションが増加される。
【0061】つまり、表4を用いて説明したように、表
6に示す例では、収集された言語データを用いることに
より、20(1×5×2×2)通りの文を生成すること
ができる。
【0062】また、文の一部について展開することもで
きる。たとえば、表6のセルC3とセルC4とを1つの
セルにまとめると、“遅れますか”、“遅れそうです
か”、“遅くなりますか”および“遅くなりそうです
か”という文字列を生成することができる。
【0063】このように、一度、セルを増加して、文字
列(表6では、“遅くなり”)を追加することにより、
言語データのバリエーションを増やした後に、元のセル
数に戻すこともできるのである。
【0064】
【表6】
【0065】なお、この実施例では、ステップS14b
でセルが増加したと判断した場合には、そのままステッ
プS11に戻るようにしたが、ステップS11の部分情
報の追加処理では、すべてのセルについての処理を実行
するため、時間がかかってしまう。したがって、ステッ
プS14bでセルが増加したと判断した場合には、増加
したセルについてのみ部分情報を追加する処理を実行す
るようにすれば、時間を短縮することができる。
【0066】また、セルの整理は、文が入力される毎に
実行する必要はなく、或る程度の数(入力文の数N2)
の文が入力されたときに、セルを整理するようにしても
よい。この場合には、図5に示すような処理が実行され
る。ただし、図5においては、図面の都合上、スタート
からステップS9までの処理を省略してあるが、これは
図2と同じである。
【0067】つまり、ステップS13で部分情報の追加
された文が表示されたときに、ステップS14cで入力
文の数がN2以上かどうかを判断し、入力文の数がN2
以上であれば、ステップS14aでセルを整理する。一
方、入力文の数がN2に満たない場合には、そのままス
テップS15に進む。
【0068】ただし、N2は任意の自然数であり、プロ
グラマ、設計者またはユーザによって自由に改変可能な
値である。
【0069】このようにすれば、文が入力される毎に、
セルを整理する場合よりも時間を短縮することができ
る。
【0070】さらに、言語データのバリエーションを増
加するためには、新たな文を入力し、新たな文の入力が
なくなるまで、上述したようなステップS3〜S15の
処理を繰り返すようにすればよい。
【0071】したがって、たとえば、表7に示すよう
に、バリエーション(変化)の豊富な言語データを収集
することができる。
【0072】
【表7】
【0073】この表7から分かるように、セルは文中の
文字列だけでなく、文毎にも区切られる。つまり、表に
おける縦方向についてもセルで区分けされる。これは、
文字列をセルに分割し、セルに類義語を追加した結果、
文についてもセルを区切らなければ、正しい文として成
立しない場合があるからである。
【0074】なお、このように、縦方向にセルが増加さ
れた場合には、部分情報を追加するときには、横方向の
セルのそれぞれについての部分情報を追加して、次の列
について同様の処理をし、これを繰り返すようにすれば
よい。
【0075】さらに、任意のセルに着目して、そのセル
に含まれる文字列の対義語に置き換えるようにして、言
語データのバリエーションを簡単に増やすこともでき
る。具体的には、表6において、セルC3に着目して、
「遅い」の対義語である「早い」を文脈に沿うように置
き換えると、表8に示すような言語データを収集するこ
とができる。この場合には、たとえば、類義語辞書デー
タ18aとは別に対義語辞書データを作成し、HDD1
8に記憶しておけばよい。
【0076】
【表8】
【0077】この実施例によれば、文を単語または語句
のような文字列ごとのセルに分けて収集し、セル内の文
字列の類義語等を辞書から検索して追加することができ
るので、データ収集が簡単であり、しかも抜けの無い収
集を実現できる。すなわち、充実した大規模な言語デー
タを短時間で収集することができる。
【0078】第2の実施例の言語データ収集装置10は
部分情報の追加処理において、部分情報として、さらに
関連語を追加するようにした以外は、図1実施例と同じ
であるため、重複した説明は省略する。
【0079】図6に示すように、この第2の実施例の言
語データ収集装置10では、図1に示した言語データ収
集装置10において、さらにHDD18内に関連語辞書
データ18bが設けられる。
【0080】ここで、関連語辞書とは、互いに非類似の
(意義の異なる)単語であるが何らかの関連(関係)の
ある単語を検索可能にした辞書であり、この辞書を用い
て或る単語を引くと、それに関連する単語を検索するこ
とができる。
【0081】たとえば、“ホテルを予約する”と“列車
を予約する”のような2つの文において、異なる文字列
(単語)すなわち“ホテル”と“列車”とに着目する
と、それらは互いに非類似の単語であるが、「旅行」と
いうカテゴリの中では、互いに関連する単語であると言
える。また、他の例として、“野球”、“テニス”、
“ゴルフ”は、互いに非類似の単語であるが、「球技」
というカテゴリやそれより大きい「スポーツ」というカ
テゴリにおいては、関連する単語である。
【0082】このような関連語が関連語辞書データ18
bとしてHDD18に収録される。ただし、この関連語
辞書も上述の実施例で説明した類義語辞書と同様に、或
る単語を引くとそれに関連する関連語を検索することが
できる。
【0083】また、図7に示すように、上述の実施例に
おいて説明した部分情報の追加処理(図3参照)が変更
される。ただし、第2の実施例の部分情報の追加処理
は、図3において説明した処理にさらに関連語を追加す
る処理が追加されるため、その追加された部分について
のみ説明することとし、図3で説明した処理と同じ部分
についての説明および図示は省略することにする。
【0084】図7を参照して、ステップS31ですべて
のセルについて部分情報すなわち類義語の追加処理が終
了すると、ステップS33で、セルの番号を初期化(i
=1)する。続くステップS35では、セルCi内に含
まれる単語(文字列)についての関連語を関連語辞書デ
ータ18bから検索する。そして、ステップS37で関
連語があるかどうかを判断する。
【0085】続くステップS37で“NO”であれば、
つまり関連語がなければ、そのままステップS41に進
む。一方、ステップS37で“YES”であれば、つま
り関連語があれば、ステップS39で検索した関連語を
当該セルCiに追加してからステップS41に進む。
【0086】ステップS41では、セルの番号iをイン
クリメント(i=i+1)して、ステップS43では
セルの番号iが現在のセル数より大きいかどうかを判断
する。ステップS43で“NO”であれば、つまりセル
の番号iが現在のセル数よりも小さければ、すべてのセ
ルについて関連語の追加処理を終了していないと判断
し、ステップS35に戻る。一方、ステップS43で
“YES”であれば、つまりセルの番号iが現在のセル
数よりも大きければ、すべてのセルについて関連語の追
加処理を終了したと判断し、部分情報の追加処理を終了
する。
【0087】このように、さらに関連語を追加すること
により、表9に示すようなバリエーションに富んだ言語
データを収集することができる。
【0088】
【表9】
【0089】なお、表9の(1)と(2)とをそれぞれ
1まとまりと考えると、(1)、(2)は、それぞれ、
セルC1の“何時間”の関連語(“どれ”、“どの”)
を追加したことにより、収集されたデータ群である。ま
た、(1)について“遅れますか”に“遅くなりそうで
すか”を追加し、セル分けした後、さらに類義語を追加
した結果、表7を用いて説明したのと同様に、(2)の
データ群が収集されたと考えることができる。
【0090】第2の実施例によれば、部分情報として関
連語をさらに追加するので、上述の実施例よりもバリエ
ーションの豊富なデータ収集が可能である。
【0091】なお、第2の実施例では、類義語に加えて
関連語も追加するようにしたが、部分情報としては関連
語のみを追加するようにしてもよい。この場合には、部
分情報の追加処理では、図7のステップS33からステ
ップS43までの処理のみが実行される。
【0092】図8を参照して、第3の実施例の言語デー
タ収集装置10は、コンピュータ12に英語データベー
ス(英語DB)32および日本語DB34が接続される
以外は、図1に示した収集装置10と同じであるため、
重複した説明は省略する。
【0093】たとえば、第2の実施例の言語データ収集
装置10では、英語DB32に予め種文が収録される。
また、この英文の種文に対応する日本文が、日本語DB
34に収録される。この第2の実施例では、既に蓄積さ
れた言語DB30の言語データから言語データの収集処
理(具体的には、ステップS3)において入力される文
を抽出するようにしている。つまり、言語DB30を文
の入力源として使用するのである。
【0094】また、言語DB30から文を抽出する場合
には、種文との類似度が大きい文が選択される。たとえ
ば、上述の実施例において、表1を用いて説明したよう
に、第1文と第2文とでは、文間距離が「3」というよ
うに、数値で表すことができる。したがって、言語DB
30内のすべての文について、文間距離を求め、そし
て、類似度を算出し、類似度が閾値以上の文を順に入力
することができる。たとえば、表1に示した第1文と第
2文との類似度は、(全セル数−誤差)/全セル数=
(5−3)/5=40(%)である。
【0095】このように類似度を算出できるが、上述し
たように、種文は英文であり、異なる言語同士であるた
め、このままでは、言語DB30の言語データ(日本
語)との文間距離を算出することができない。したがっ
て、英語DB32についての対訳関係にある日本語DB
34を参照するようにしてある。つまり、日本語DB3
4には、上述したように、英語DB32内の英文に対応
する翻訳文(日本文)が蓄積されており、したがって、
種文が決定されると、日本語DB34を参照して、その
日本文を決定することができる。そこで、この実施例で
は、このように決定された日本文を、上述の類似度の算
出に使用するようにしてある。
【0096】なお、詳細な説明は省略するが、1つの英
文に対して複数の日本文を用意しておき、それらすべて
の日本文との間で類似度を算出するようにしてもよい。
【0097】具体的には、CPU14は、図9に示すフ
ロー図に従ってデータ収集処理を実行する。なお、図9
からも分かるように、第3の実施例では、入力する文を
言語DB30から検索するようにした以外は図2のデー
タ収集処理と同じであるため、重複した説明を省略する
とともに、同じステップには同じステップ番号を付すこ
とにする。また、図面の都合上、ステップS3からエン
ドまでについては省略してあるが、それらは図2と同じ
である。
【0098】図9に示すように、CPU14は、ステッ
プS1で種文を提示すると、ステップS2aで種文の日
本文を日本語DB34から読み出し、当該日本文と言語
DB30に含まれる文との類似度を算出する。そして、
ステップS2bで、類似度が閾値以上の文を選択してか
らステップS3に進む。
【0099】ステップS3以降の処理は、図2に示した
処理と同じであるため、それらについての説明は割愛す
ることにする。ただし、ステップS3では、入力する文
が複数存在する場合には、たとえば、類似度が高い順に
入力される。
【0100】なお、閾値は、1(%)以上99(%)以
下の間で設定可能であり、プログラマ、設計者またはユ
ーザによって設定・変更可能である。
【0101】また、図示等は省略するが、第3の実施例
のおいても、上述の実施例で図4および図5を用いて説
明したようなセルの整理等の処理を追加してもよいこと
はもちろんである。
【0102】さらに、第2の実施例に、この第3の実施
例を適用して、既に蓄積した言語DB30を文の入力源
として使用することもできる。
【0103】第3の実施例によれば、既に蓄積された言
語DBを有効利用することにより、上述の実施例よりも
さらに効率よく言語データを収集することができる。
【0104】なお、第3の実施例では、言語DB30か
らのみ文を検索し、入力するようにしたが、上述の実施
例のように、キーボード28等の入力装置を用いて文を
入力することも可能である。また、予め収集した文をH
DD18に記憶しておき、そこから文を入力したり、通
信回路24を介して他の機器やインターネット上の任意
のサイトから取得した文を入力したりしてもよく、さら
に、音声認識機能を設けることにより音声によって文を
入力するようにしてもよい。
【図面の簡単な説明】
【図1】この発明の言語データ収集装置の構成の一例を
示す図解図である。
【図2】図1実施例に示すCPUのデータ収集処理の一
例を示すフロー図である。
【図3】図2に示すCPUの部分情報の追加処理の一例
を示すフロー図である。
【図4】図1実施例に示すCPUのデータ収集処理の他
の一例を示すフロー図である。
【図5】図1実施例に示すCPUのデータ収集処理のそ
の他の一例を示すフロー図である。
【図6】この発明の言語データ収集装置の構成の他の一
例を示す図解図である。
【図7】図6実施例に示すCPUの部分情報の追加処理
の一例を示すフロー図である。
【図8】この発明の言語データ収集装置の構成のその他
の一例を示す図解図である。
【図9】図8実施例に示すCPUのデータ収集処理の一
例を示すフロー図である。
【符号の説明】
10 …言語データ収集装置 12 …コンピュータ 14 …CPU 18 …HDD 24 …通信回路 30 …言語DB 32 …英文DB 34 …日本語DB
───────────────────────────────────────────────────── フロントページの続き (72)発明者 竹澤 寿幸 京都府相楽郡精華町光台二丁目2番地2 株式会社国際電気通信基礎技術研究所内 (72)発明者 菊井 玄一郎 京都府相楽郡精華町光台二丁目2番地2 株式会社国際電気通信基礎技術研究所内 (72)発明者 山本 誠一 京都府相楽郡精華町光台二丁目2番地2 株式会社国際電気通信基礎技術研究所内 Fターム(参考) 5B091 AA05 AB17 CA02 CC01 CC16

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】データベースを構築するため任意の言語に
    対応する言語データを収集する言語データ収集方法であ
    って、 (a) 提示される種文に対応して入力される2以上の第1
    所定数の文のそれぞれを文字列毎に区切り、 (b) 同じ文字列同士を同じセルにまとめるとともに、異
    なる文字列を異なるセルに入力し、そして (c) 少なくとも前記セルに含まれる文字列に部分情報を
    追加する、言語データ収集方法。
  2. 【請求項2】前記ステップ(a) は、(a-1) 前記任意の言
    語による種文に対応する翻訳文について予め収集した翻
    訳文を入力するステップを含む、請求項1記載の言語デ
    ータ収集方法。
  3. 【請求項3】前記ステップ(a) は、(a-2) 既に構築され
    た前記データベースから閾値以上の類似度を有する文を
    検索するステップ、および(a-3) 検索した前記文を入力
    するステップを含む、請求項1記載の言語データ収集方
    法。
  4. 【請求項4】前記部分情報は前記文字列の類義語を含
    み、 前記ステップ(c) は、(c-1) 前記セルに含まれる前記文
    字列の類義語を類義語辞書データから検索するステップ
    を含む、請求項1ないし3のいずれかに記載の言語デー
    タ収集方法。
  5. 【請求項5】前記部分情報は前記文字列の関連語を含
    み、 前記ステップ(c) は、(c-2) 前記セルに含まれる前記文
    字列の関連語を関連語辞書データから検索するステップ
    を含む、請求項1ないし4のいずれかに記載の言語デー
    タ収集方法。
  6. 【請求項6】前記セル内に存在する前記文字列をさらに
    区分けするステップ(d) をさらに備える、請求項1ない
    し5のいずれかに記載の言語データ収集方法。
  7. 【請求項7】前記ステップ(d) は、(d-1) 前記文が第2
    所定数入力されたか否かを検出するステップを含み、 前記文が第2所定数を超えたとき、前記セル内に存在す
    る前記文字列をさらに区分けする、請求項6記載の言語
    データ収集方法。
JP2002064099A 2002-03-08 2002-03-08 言語データ収集方法 Withdrawn JP2003263430A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002064099A JP2003263430A (ja) 2002-03-08 2002-03-08 言語データ収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002064099A JP2003263430A (ja) 2002-03-08 2002-03-08 言語データ収集方法

Publications (1)

Publication Number Publication Date
JP2003263430A true JP2003263430A (ja) 2003-09-19

Family

ID=29197047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002064099A Withdrawn JP2003263430A (ja) 2002-03-08 2002-03-08 言語データ収集方法

Country Status (1)

Country Link
JP (1) JP2003263430A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007069762A1 (ja) * 2005-12-12 2007-06-21 Nec Corporation 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JP2010033392A (ja) * 2008-07-30 2010-02-12 Casio Comput Co Ltd 対訳コーパス作成システム及び対訳コーパス作成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007069762A1 (ja) * 2005-12-12 2007-06-21 Nec Corporation 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JP4930379B2 (ja) * 2005-12-12 2012-05-16 日本電気株式会社 類似文検索方法、類似文検索システム及び類似文検索用プログラム
US8356065B2 (en) 2005-12-12 2013-01-15 Nec Corporation Similar text search method, similar text search system, and similar text search program
JP2010033392A (ja) * 2008-07-30 2010-02-12 Casio Comput Co Ltd 対訳コーパス作成システム及び対訳コーパス作成方法

Similar Documents

Publication Publication Date Title
CN100474301C (zh) 基于数据挖掘获取词或词组单元译文信息的系统和方法
JP3067966B2 (ja) 画像部品を検索する装置及びその方法
US6101492A (en) Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
US20050080613A1 (en) System and method for processing text utilizing a suite of disambiguation techniques
CN102945228A (zh) 一种基于文本分割技术的多文档文摘方法
CN101042692A (zh) 基于语义预测的译文获取方法和设备
JP2006293830A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
Gencosman et al. Character n-gram application for automatic new topic identification
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
Meena et al. Survey on graph and cluster based approaches in multi-document text summarization
KR100835706B1 (ko) 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
CN106844571A (zh) 识别同义词的方法、装置和计算设备
US20050065920A1 (en) System and method for similarity searching based on synonym groups
Yao et al. Exploiting neural query translation into cross lingual information retrieval
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
CN101470701A (zh) 支持基于有限状态机的语义规则的文本分析器及其方法
JP5112027B2 (ja) 文書群提示装置および文書群提示プログラム
JP2003263430A (ja) 言語データ収集方法
JP4783563B2 (ja) インデックス生成プログラム、検索プログラム、インデックス生成方法、検索方法、インデックス生成装置および検索装置
JPH09319767A (ja) 類義語辞書登録方法
CN113158666A (zh) 基于依存句法树的中文问题的关键词抽取方法
JP2000285122A (ja) シソーラス生成装置および方法,ならびにシソーラス生成プログラムを記録した記録媒体
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP2009175895A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050510