JP2003263430A

JP2003263430A - 言語データ収集方法

Info

Publication number: JP2003263430A
Application number: JP2002064099A
Authority: JP
Inventors: Fumiaki Sugaya; 史昭菅谷; Yumiko Kaneshiro; 由美子金城; Toshiyuki Takezawa; 寿幸竹澤; Genichiro Kikui; 玄一郎菊井; Seiichi Yamamoto; 誠一山本
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2002-03-08
Filing date: 2002-03-08
Publication date: 2003-09-19

Abstract

(57)【要約】【構成】英語で表記された種文が提示されると（Ｓ
１）、その日本語による翻訳文（日本文）が入力される
（Ｓ３）。たとえば、少なくとも２つ以上の第１所定数
の文が入力されると（Ｓ５）、単語或いは語句のような
文字列毎に区分けされる。このとき、同じ文字列は、同
じセルにまとめられ、異なる文字列は異なるセルに入力
（分配）される（Ｓ７）。そして、各セル毎に文字列の
類義語や関連語のような部分情報が追加される（Ｓ１
１）。このように、セルに分けて単語或いは語句すなわ
ち言語データが収集される。【効果】セルに分けて単語や語句を収集し、セルに類
義語などを追加するので、大規模なデータを効率よく収
集できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は言語データ収集方法に
関し、特にたとえばデータベースを構築するため任意の
言語に対応する言語データを収集する、言語データ収集
方法に関する。

【０００２】

【従来の技術】近年、開発が進んでいる翻訳システム
は、たとえば、英語から日本語への翻訳或いはその逆を
実行するものである。このような翻訳システムでは、正
しく翻訳するために、たとえば１つの英文（種文）に対
応する複数の翻訳文（日本文）を収集する必要がある。
したがって、収集した文の数が多いほど、日本文から英
文への翻訳が正確に行われていた。

【０００３】

【発明が解決しようとする課題】しかし、この従来技術
では、１つの英文に対して複数の日本文を用意する必要
があるため、データ量が膨大であり、漏れなく日本語を
収集しようとすると、収集に多大な時間を要するという
問題があった。一方、短時間で収集を終えるために、収
集する日本文の数を少なくした場合には、日本文（言
語）の様々な態様（変化）に対応することができず、翻
訳機能が低下するという問題もあった。

【０００４】それゆえに、この発明の主たる目的は、効
率よく大規模なデータを収集できる、新規な言語データ
収集方法を提供することである。

【０００５】

【課題を解決するための手段】この発明は、データベー
スを構築するため任意の言語に対応する言語データを収
集する言語データ収集方法であって、(a) 提示される種
文に対応して入力される２以上の第１所定数の文のそれ
ぞれを文字列毎に区切り、(b) 同じ文字列同士を同じセ
ルにまとめるとともに、異なる文字列を異なるセルに入
力し、そして(c) 少なくともセルに含まれる文字列に部
分情報を追加する、言語データ収集方法である。

【０００６】

【作用】任意の言語で表記された種文が提示されると、
その翻訳文のような文が入力される。ただし、任意の言
語と同じ言語の文を入力してもよく、この場合には、種
文と同一でないが、文全体として同じ意味を表す文が入
力される。少なくとも２つ以上の第１所定数の文が入力
されると、単語或いは語句のような文字列毎に区分けさ
れる。このとき、同じ文字列は、同じセルにまとめら
れ、異なる文字列は異なるセルに入力（分配）される。
そして、各セル毎に文字列の類義語や関連語のような部
分情報が追加される。このように、セルに分けて単語或
いは語句すなわち言語データが収集される。

【０００７】たとえば、入力する文は、任意の言語につ
いての翻訳文を予め収集しておいたものであり、それを
順に入力するようにすればよい。

【０００８】また、言語データを収集した結果構築され
たデータベースから種文と類似度が閾値以上である文を
入力するようにすることもできる。このため、データベ
ースを有効利用でき、効率よく言語データを収集するこ
とができる。

【０００９】上述したように、たとえば、部分情報には
類義語が含まれ、セルに含まれる文字列の類義語が類義
語辞書から検索され、当該セルに追加される。したがっ
て、バリエーションに富んだ言語の収集が可能である。

【００１０】また、部分情報には関連語が含まれ、セル
に含まれる文字列の関連語が関連語辞書から検索され、
当該セルに追加される。このため、文の一部（文字列）
のバリエーションだけでなく、文自体のバリエーション
を増やすことができる。

【００１１】さらに、文が入力され、部分情報を追加し
た場合には、さらにセルを整理して区分けすることがで
きる。たとえば、１つのセルに含まれる複数の語句につ
いて一致する部分と不一致の部分とに区分けすることが
できる。このように、さらにセルを増加させ、部分情報
を追加することにより、さらにバリエーションの豊富な
言語データを収集できる。

【００１２】このような処理は、文が入力される毎に実
行する必要はなく、第２所定数の文が入力されてときに
実行するようにせてもよい。この場合は、文が入力され
る毎にセルを整理する場合よりも、時間を短縮すること
ができる。

【００１３】

【発明の効果】この発明によれば、セルに分けて単語或
いは語句を収集するので、効率よく言語データを収集す
ることができる。つまり、大規模なデータであっても短
時間で収集可能である。

【００１４】この発明の上述の目的，その他の目的，特
徴および利点は、図面を参照して行う以下の実施例の詳
細な説明から一層明らかとなろう。

【００１５】

【実施例】図１を参照して、この実施例の言語データ収
集装置１０は、パーソナルコンピュータ或いはワークス
テーションのようなコンピュータ１２を含む。コンピュ
ータ１２には、ＣＰＵ１４が設けられ、ＣＰＵ１４は内
部バス（以下、単に「バス」という。）１６を介してハ
ードディスクドライブ（ＨＤＤ）１８およびＲＡＭのよ
うなメモリ２０に接続される。また、コンピュータ１２
は、ドライバ２２および通信回路２４を含み、これらも
バス１６を介してＣＰＵ１４に接続される。

【００１６】コンピュータ１２には、モニタ２６、キー
ボード２８およびデータベース３０が接続される。モニ
タ２６は、図示しないインターフェイスを介してドライ
バ２２に接続される。また、キーボード２８は、図示し
ないインターフェイスを介してＣＰＵ１４に接続され
る。さらに、データベース３０は、収集した言語データ
を蓄積するデータベース（以下、「言語ＤＢ」とい
う。）であり、図示しないインターフェイス（およびバ
ス１６）を介して、ＣＰＵ１４に接続される。

【００１７】なお、図示は省略するが、コンピュータ１
２は、通信回路２４を用いて、インターネット、イント
ラネット、公衆電話網或いは携帯電話網のようなネット
ワークに接続できる。

【００１８】また、図１では省略するが、コンピュータ
１２には、ＦＤドライブ、ＣＤドライブやＭＯドライブ
が設けられる。

【００１９】さらに、図１では省略するが、コンピュー
タ１２には、キーボード２８の他に、コンピュータマウ
ス、音声入力装置或いはスタイラスペンを用いるような
ペン入力装置（タッチパネルを含む。）などの様々な入
力装置が接続される。

【００２０】さらにまた、この実施例では、言語ＤＢ３
０をコンピュータ１２の外部に直接接続するようにして
いるが、言語ＤＢ３０はコンピュータ１２内部に設ける
ようにしてもよく、通信回路２４を用いてコンピュータ
１２と通信可能にネットワーク上に設けるようにしても
よい。

【００２１】このような構成で言語データの収集が実行
される。具体的には、ユーザが言語データの収集を指示
すると、これに応じて、ＣＰＵ１４は、ＨＤＤ１８にイ
ンストール（プログラミング）されている言語データを
収集するためのプログラム（ソフト）を起動し、図２に
示すような言語データの収集処理を実行する。

【００２２】図２に示すように、ステップＳ１では、Ｃ
ＰＵ１４は、言語データを収集するための種文を表示す
る。つまり、ＣＰＵ１４は、ＨＤＤ１８に記憶された或
いはユーザによって入力された種文のデータ（テキスト
データ）を読み出し、ドライバ２２を駆動してモニタ２
６に出力する。

【００２３】たとえば、この実施例では、“Ｈｏｗｍ
ａｎｙｈｏｕｒｓｗｉｌｌｙｏｕｂｅｌａｔ
ｅ？”という種文が提示される。このように、英文の種
文を提示するのは、言語データを収集する際に、日本文
で表記された種文に引きずられてしまうのを防止して、
収集する言語（この実施例では、日本語）のバリエーシ
ョンを増やすためである。

【００２４】なお、種文は、予め蓄積（収録）しておい
た英語のデータベース（英語データベース）から１つの
英文を選択するようにしてもよい。この場合、種文の英
語データベースはコンピュータ１２に直接接続されても
よく、ネットワークを介して間接的に接続されてもよ
い。

【００２５】このような種文が提示されると、続いて、
ＣＰＵ１４は、ステップＳ３で文を入力する。この実施
例では、種文の日本語による翻訳文（日本文）が入力さ
れる。たとえば、ユーザがキーボード２８等の入力装置
を用いて入力した文を入力することができる。また、予
め収集しておいた文をＨＤＤ１８に記憶しておき、そこ
から文を入力したり、通信回路２４を介して他の機器や
インターネット上の任意のサイトやデータベースから取
得した文を入力したりしてもよく、さらには、音声認識
機能を設けることにより音声によって文を入力するよう
にしてもよい。このように、文の入力源および入力方法
は様々である。

【００２６】なお、ＨＤＤ１８と同様に、ＦＤ、ＣＤ或
いはＭＯのような外部記憶媒体に予め文を記憶してお
き、そこから入力することもできる。

【００２７】ただし、収集する言語と同じ言語の種文を
提示するようにしてもよく、この場合には、種文と同一
（完全一致）ではないが、文全体として意味が同じ文が
入力されることになる。

【００２８】また、入力する文は、種文についての翻訳
文をそのまま入力するようにしているが、種文（または
その翻訳文）と逆の意味になる文や関連する文を入力す
るようにしてもよい。たとえば、種文が日本文で提示さ
れている場合について説明すると、“何時間くらい遅れ
そうですか”という種文に対して、“何時間くらい早く
なりそうですか”というような逆の意味の文を入力する
ことができる。また、“ホテルを予約する”という種文
に対して、“列車の切符を購入する”というような関連
する文を入力することもできる。

【００２９】ここで、関連する文とは、互いに類似（類
義）したり、反対の意義（意味）を表したりする文では
なく、何らかの関係（関連）がある文を意味する。つま
り、上述の例を用いて説明すると、“ホテルを予約す
る”と“列車の切符を購入する”という文は互いに意味
が異なる文であり、また、反対の意義を表す文ではない
が、「旅行」というカテゴリでは、いずれも使用される
場合があり、互いに関連すると言える。

【００３０】続くステップＳ５では、入力された文の数
（入力文の数）がＮ１（Ｎ１は２以上の自然数）以上で
あるかどうかを判断する。ステップＳ５で“ＮＯ”であ
れば、つまり入力文の数がＮ１より小さければ、そのま
まステップＳ３に戻る。一方、ステップＳ５で“ＹＥ
Ｓ”であれば、つまり入力文の数がＮ１以上であれば、
ステップＳ７で文を整理する。

【００３１】この実施例では、Ｎ１＝２であり、たとえ
ば、“何時間遅れますか”および“何時間くらい遅れま
すか”という２つの文が入力されたとする。また、ステ
ップＳ７では、入力された２つの文について、周知のＤ
Ｐマッチング法により同じ単語または語句などの文字列
を判別した後、セルに区分けされる。

【００３２】つまり、ＤＰマッチング法を用いることに
より、２つの文の全体に渡って、できる限りもっともら
しいマッチングを行うことができる。たとえば、第１文
“今日は天気です”と第２文“今日雨ですね”とのＤＰ
マッチングについて考える。ただし、簡単のため、第１
文および第２文は単語系列で表されているとする。した
がって、第１文は、“今日”、“は”、“天気”、“で
す”と分割することができる。一方、第２文は、“今
日”、“雨”、“です”、“ね”と分割することができ
る。これらは、表１で示すように表すことができる。

【００３３】

【表１】

【００３４】ここで、第１文を基準として考えると、第
２文では“は”は削除され、“天気”は“雨”に置換さ
れ、“ね”が挿入されている。この実施例では、「削
除」、「置換」および「挿入」の総和がＤＰマッチング
による２つの文の間における距離（以下、「文間距離」
という。）として定義する。したがって、「削除」、
「置換」および「挿入」のような誤差（距離）をそれぞ
れ「１」とすると、上述の第１文と第２文との文間距離
は「３」である。

【００３５】つまり、ステップＳ７における文の整理で
は、２つの文を比較し、近い表現を対応づける。このと
き、文間距離は、２つの文字列間の編集距離を使った上
述のＤＰマッチングにより、算出される。

【００３６】なお、上述のＤＰマッチングの説明におい
ては、簡単に説明するために、予め文が単語に区切られ
ているものとして説明したが、文を単語に区切るために
は周知の形態素解析を実行する必要がある。つまり、こ
の形態素解析がステップＳ７の前提として実行（処理）
されるのである。このとき、形態素解析において、文を
語幹と助詞や助動詞などの付属語とに分けるようにすれ
ば、２つの文についての文間距離を比較的正確に算出す
ることができる。また、漢字、かな、カタカナ、数字の
ような分類で文を分けるようにしてもよい。

【００３７】また、この実施例では、文間距離として
は、単語同士の完全一致・不一致を利用する編集距離を
ＤＰマッチングにより求めるようにしてあるが、単語の
意味辞書に付されている意味コードを利用して意味コー
ド間の距離で求めるようにしてもよい。

【００３８】このようにして、文が整理されると、表２
に示すように、同じ文字列は同じ文字列を内容とする１
つのセルにまとめられ、異なる文字列はそれぞれれ１つ
のセルに入力（分配）される。

【００３９】

【表２】

【００４０】ただし、２つの文を比較したときに、対応
する文字列（単語または語句）が存在しない場合には、
対応する文字列が空白であることを意味する“−”で表
すことにする。また、セルは左から順にＣ１，Ｃ２，Ｃ
３，…，Ｃｎ、すなわちＣｉ（ｉ＝１，２，３，…，
ｎ）と表すことにする。

【００４１】このように整理された文がステップＳ９に
おいて提示される。すなわち、モニタ２６に表示され
る。続くステップＳ１１では、後で詳細に説明する部分
情報の追加処理を実行する。この部分情報は、この実施
例では、１つのセルに存在する（含まれる）文字列と意
義の類似する文字列すなわち類義語を意味する。

【００４２】つまり、ステップＳ１１では、ＣＰＵ１４
は、ＨＤＤ１８に格納された意義の類似する語句や単語
についての辞書（類義語辞書）１８ａを参照して、セル
Ｃ１〜Ｃ３のそれぞれに部分情報を追加する。

【００４３】ここで、類義語辞書とは、一般に書店で販
売されている類義語辞書を電子データにしたものであ
り、この類義語辞書を用いて或る文字列（単語や語句）
を引くと、その文字列についての類義語を検索すること
ができる。たとえば、“程度”という単語を引くと、
“くらい”、“ぐらい”、“ほど”のような類義語を検
索することができる。つまり、ステップＳ１１では、こ
のように検索された類義語が元の文字列が属するセルに
追加されるのである。

【００４４】続くステップＳ１３では、部分情報の追加
された文を提示（表示）する。たとえば、この実施例で
は、セルＣ２に部分情報が追加された例を表３に示し、
続いて、セルＣ３に部分情報が追加された例を表４に示
す。

【００４５】

【表３】

【００４６】

【表４】

【００４７】なお、セルＣ１については、“何時間”の
類義語が存在しないため、部分情報すなわち類義語は追
加されてない。

【００４８】続いて、ステップＳ１５で次の文が有るか
どうかを判断する。ステップＳ１５で“ＹＥＳ”であれ
ば、つまり次の文が有れば、ステップＳ３に戻る。一
方、ステップＳ１５で“ＮＯ”であれば、つまり次の文
が無ければ、ステップＳ１７で結果を言語ＤＢ３０に登
録して処理を終了する。つまり、表４に示したようなセ
ルに分割（区分け）された言語のデータ（言語データ）
が、たとえば、種文に対応づけて言語ＤＢ３０に記録さ
れる。このようにして、言語データが収集される。

【００４９】このようにして、言語データが収集される
が、表４に着目すると、収集された文（この実施例で
は、種文の翻訳文）は、セルＣ１、セルＣ２およびセル
Ｃ３の順に任意の１つの文字列を抽出することにより生
成される。たとえば、セルＣ１から“何時間”、セルＣ
２から“ぐらい”、セルＣ３から“遅れそうですか”を
抽出して、セルＣ１、Ｃ２、Ｃ３の順に並べると、“何
時間ぐらい遅れそうですか”という文になる。つまり、
表４では、セルＣ１に１つの文字列が含まれ、セルＣ２
に５つの文字列（空欄を含む。）が含まれ、セル３に２
つの文字列が含まれるため、１０（１×５×２）通りの
文を生成することができるのである。

【００５０】また、表４に示すような収集結果を用い
て、文全体或いは文の一部を展開表示することができ
る。たとえば、表４の収集結果をモニタ２８に表示し、
入力装置を用いて、セルＣ１〜Ｃ３を選択し、展開の指
示を与えると、“何時間遅れますか”、“何時間遅れそ
うですか”、“何時間くらい遅れますか”、…というよ
うに、１０通りの文が表示される。また、セルＣ２およ
びセルＣ３を選択し、展開指示を入力した場合には、セ
ルＣ２とセルＣ３との分割が元に戻され、すなわちセル
Ｃ２とセルＣ３とが１つのセルにまとめられ、“遅れま
すか”、“遅れそうですか”、“くらい遅れますか”、
“くらい遅れそうですか”、“ぐらい遅れますか”、
“ぐらい遅れそうですか”、…というように、すべての
組み合わせ（文字列の結合）が表示される。

【００５１】なお、このように、文全体或いは文の一部
を展開表示した結果を、言語データとともに、或いは上
書きして言語ＤＢ３０に登録するようにしてもよい。

【００５２】図３を参照して、図２のステップＳ１１に
おける部分情報の追加処理が開始されると、ＣＰＵ１４
は、ステップＳ２１でセルの番号ｉを初期化（ｉ＝１）
する。続くステップＳ２３では、セルＣｉ内の文字列の
類義語を類義語辞書データ１８ａから検索する。そし
て、ステップＳ２５では、検索した結果から類義語があ
るかどうかを判断する。

【００５３】ステップＳ２５で“ＮＯ”であれば、つま
り類義語がなければ、そのままステップＳ２９に進む。
一方、ステップＳ２５で“ＹＥＳ”であれば、つまり類
義語があれば、ステップＳ２７で当該セルＣｉに検索し
た類義語を追加してステップＳ２９に進む。

【００５４】ステップＳ２９では、セルの番号ｉをイン
クリメント（ｉ＝ｉ＋１）する。続くステップＳ３１で
は、セルの番号ｉが現在のセルの数（セル数）よりも大
きいかどうかを判断する。つまり、すべてのセルについ
て部分情報を追加したかどうかを判断する。

【００５５】ステップＳ３１で“ＮＯ”であれば、つま
りセルの番号ｉが現在のセル数より小さければ、すべて
のセルについて部分情報を追加していないと判断し、ス
テップＳ２３に戻って、次のセルについて部分情報を追
加する。一方、ステップＳ３１で“ＹＥＳ”であれば、
つまりセルの番号ｉが現在のセル数よりも大きければ、
すべてのセルについて部分情報を追加したと判断し、部
分情報の追加処理をリターンする。

【００５６】ただし、表５に示すように、セル内の情報
についてＤＰマッチングを使用すれば、さらにセルを増
加させることもできる。これにより、言語データのバリ
エーションを増加させることができる。

【００５７】

【表５】

【００５８】つまり、図４に示すように、図２に示した
ステップＳ１３とステップＳ１５との間に、各セルＣｉ
についてＤＰマッチングを実行する処理すなわちセルを
整理するステップＳ１４ａおよびその結果からセルが増
加したかどうかを判断するステップＳ１４ｂを設けるよ
うにすればよい。そして、セルが増加していなければ、
ステップＳ１５で次の文があるかどうかを判断し、セル
が増加していれば、ステップＳ１１に戻って部分情報の
追加を行えばよい。

【００５９】なお、図４においては、図面の都合上、ス
タートからステップＳ９までの処理を省略して示してあ
るが、これは図２と同様である。

【００６０】たとえば、セルが増加した場合には、さら
にそのセルについて類義語を追加することができる。つ
まり、動詞や助動詞或いはそれらの結合の活用形（変
形）を類義語として扱うようにしておき、それらについ
ても類義語辞書に含んでおけば、部分情報として追加す
ることができる。したがって、表５において、“遅れ”
が含まれるセルＣ３に部分情報（たとえば、“遅くな
り”）が追加されると、表６のようになり、したがっ
て、言語データのバリエーションが増加される。

【００６１】つまり、表４を用いて説明したように、表
６に示す例では、収集された言語データを用いることに
より、２０（１×５×２×２）通りの文を生成すること
ができる。

【００６２】また、文の一部について展開することもで
きる。たとえば、表６のセルＣ３とセルＣ４とを１つの
セルにまとめると、“遅れますか”、“遅れそうです
か”、“遅くなりますか”および“遅くなりそうです
か”という文字列を生成することができる。

【００６３】このように、一度、セルを増加して、文字
列（表６では、“遅くなり”）を追加することにより、
言語データのバリエーションを増やした後に、元のセル
数に戻すこともできるのである。

【００６４】

【表６】

【００６５】なお、この実施例では、ステップＳ１４ｂ
でセルが増加したと判断した場合には、そのままステッ
プＳ１１に戻るようにしたが、ステップＳ１１の部分情
報の追加処理では、すべてのセルについての処理を実行
するため、時間がかかってしまう。したがって、ステッ
プＳ１４ｂでセルが増加したと判断した場合には、増加
したセルについてのみ部分情報を追加する処理を実行す
るようにすれば、時間を短縮することができる。

【００６６】また、セルの整理は、文が入力される毎に
実行する必要はなく、或る程度の数（入力文の数Ｎ２）
の文が入力されたときに、セルを整理するようにしても
よい。この場合には、図５に示すような処理が実行され
る。ただし、図５においては、図面の都合上、スタート
からステップＳ９までの処理を省略してあるが、これは
図２と同じである。

【００６７】つまり、ステップＳ１３で部分情報の追加
された文が表示されたときに、ステップＳ１４ｃで入力
文の数がＮ２以上かどうかを判断し、入力文の数がＮ２
以上であれば、ステップＳ１４ａでセルを整理する。一
方、入力文の数がＮ２に満たない場合には、そのままス
テップＳ１５に進む。

【００６８】ただし、Ｎ２は任意の自然数であり、プロ
グラマ、設計者またはユーザによって自由に改変可能な
値である。

【００６９】このようにすれば、文が入力される毎に、
セルを整理する場合よりも時間を短縮することができ
る。

【００７０】さらに、言語データのバリエーションを増
加するためには、新たな文を入力し、新たな文の入力が
なくなるまで、上述したようなステップＳ３〜Ｓ１５の
処理を繰り返すようにすればよい。

【００７１】したがって、たとえば、表７に示すよう
に、バリエーション（変化）の豊富な言語データを収集
することができる。

【００７２】

【表７】

【００７３】この表７から分かるように、セルは文中の
文字列だけでなく、文毎にも区切られる。つまり、表に
おける縦方向についてもセルで区分けされる。これは、
文字列をセルに分割し、セルに類義語を追加した結果、
文についてもセルを区切らなければ、正しい文として成
立しない場合があるからである。

【００７４】なお、このように、縦方向にセルが増加さ
れた場合には、部分情報を追加するときには、横方向の
セルのそれぞれについての部分情報を追加して、次の列
について同様の処理をし、これを繰り返すようにすれば
よい。

【００７５】さらに、任意のセルに着目して、そのセル
に含まれる文字列の対義語に置き換えるようにして、言
語データのバリエーションを簡単に増やすこともでき
る。具体的には、表６において、セルＣ３に着目して、
「遅い」の対義語である「早い」を文脈に沿うように置
き換えると、表８に示すような言語データを収集するこ
とができる。この場合には、たとえば、類義語辞書デー
タ１８ａとは別に対義語辞書データを作成し、ＨＤＤ１
８に記憶しておけばよい。

【００７６】

【表８】

【００７７】この実施例によれば、文を単語または語句
のような文字列ごとのセルに分けて収集し、セル内の文
字列の類義語等を辞書から検索して追加することができ
るので、データ収集が簡単であり、しかも抜けの無い収
集を実現できる。すなわち、充実した大規模な言語デー
タを短時間で収集することができる。

【００７８】第２の実施例の言語データ収集装置１０は
部分情報の追加処理において、部分情報として、さらに
関連語を追加するようにした以外は、図１実施例と同じ
であるため、重複した説明は省略する。

【００７９】図６に示すように、この第２の実施例の言
語データ収集装置１０では、図１に示した言語データ収
集装置１０において、さらにＨＤＤ１８内に関連語辞書
データ１８ｂが設けられる。

【００８０】ここで、関連語辞書とは、互いに非類似の
（意義の異なる）単語であるが何らかの関連（関係）の
ある単語を検索可能にした辞書であり、この辞書を用い
て或る単語を引くと、それに関連する単語を検索するこ
とができる。

【００８１】たとえば、“ホテルを予約する”と“列車
を予約する”のような２つの文において、異なる文字列
（単語）すなわち“ホテル”と“列車”とに着目する
と、それらは互いに非類似の単語であるが、「旅行」と
いうカテゴリの中では、互いに関連する単語であると言
える。また、他の例として、“野球”、“テニス”、
“ゴルフ”は、互いに非類似の単語であるが、「球技」
というカテゴリやそれより大きい「スポーツ」というカ
テゴリにおいては、関連する単語である。

【００８２】このような関連語が関連語辞書データ１８
ｂとしてＨＤＤ１８に収録される。ただし、この関連語
辞書も上述の実施例で説明した類義語辞書と同様に、或
る単語を引くとそれに関連する関連語を検索することが
できる。

【００８３】また、図７に示すように、上述の実施例に
おいて説明した部分情報の追加処理（図３参照）が変更
される。ただし、第２の実施例の部分情報の追加処理
は、図３において説明した処理にさらに関連語を追加す
る処理が追加されるため、その追加された部分について
のみ説明することとし、図３で説明した処理と同じ部分
についての説明および図示は省略することにする。

【００８４】図７を参照して、ステップＳ３１ですべて
のセルについて部分情報すなわち類義語の追加処理が終
了すると、ステップＳ３３で、セルの番号を初期化（ｉ
＝１）する。続くステップＳ３５では、セルＣｉ内に含
まれる単語（文字列）についての関連語を関連語辞書デ
ータ１８ｂから検索する。そして、ステップＳ３７で関
連語があるかどうかを判断する。

【００８５】続くステップＳ３７で“ＮＯ”であれば、
つまり関連語がなければ、そのままステップＳ４１に進
む。一方、ステップＳ３７で“ＹＥＳ”であれば、つま
り関連語があれば、ステップＳ３９で検索した関連語を
当該セルＣｉに追加してからステップＳ４１に進む。

【００８６】ステップＳ４１では、セルの番号ｉをイン
クリメント（ｉ＝ｉ＋１）して、ステップＳ４３では
セルの番号ｉが現在のセル数より大きいかどうかを判断
する。ステップＳ４３で“ＮＯ”であれば、つまりセル
の番号ｉが現在のセル数よりも小さければ、すべてのセ
ルについて関連語の追加処理を終了していないと判断
し、ステップＳ３５に戻る。一方、ステップＳ４３で
“ＹＥＳ”であれば、つまりセルの番号ｉが現在のセル
数よりも大きければ、すべてのセルについて関連語の追
加処理を終了したと判断し、部分情報の追加処理を終了
する。

【００８７】このように、さらに関連語を追加すること
により、表９に示すようなバリエーションに富んだ言語
データを収集することができる。

【００８８】

【表９】

【００８９】なお、表９の（１）と（２）とをそれぞれ
１まとまりと考えると、（１）、（２）は、それぞれ、
セルＣ１の“何時間”の関連語（“どれ”、“どの”）
を追加したことにより、収集されたデータ群である。ま
た、（１）について“遅れますか”に“遅くなりそうで
すか”を追加し、セル分けした後、さらに類義語を追加
した結果、表７を用いて説明したのと同様に、（２）の
データ群が収集されたと考えることができる。

【００９０】第２の実施例によれば、部分情報として関
連語をさらに追加するので、上述の実施例よりもバリエ
ーションの豊富なデータ収集が可能である。

【００９１】なお、第２の実施例では、類義語に加えて
関連語も追加するようにしたが、部分情報としては関連
語のみを追加するようにしてもよい。この場合には、部
分情報の追加処理では、図７のステップＳ３３からステ
ップＳ４３までの処理のみが実行される。

【００９２】図８を参照して、第３の実施例の言語デー
タ収集装置１０は、コンピュータ１２に英語データベー
ス（英語ＤＢ）３２および日本語ＤＢ３４が接続される
以外は、図１に示した収集装置１０と同じであるため、
重複した説明は省略する。

【００９３】たとえば、第２の実施例の言語データ収集
装置１０では、英語ＤＢ３２に予め種文が収録される。
また、この英文の種文に対応する日本文が、日本語ＤＢ
３４に収録される。この第２の実施例では、既に蓄積さ
れた言語ＤＢ３０の言語データから言語データの収集処
理（具体的には、ステップＳ３）において入力される文
を抽出するようにしている。つまり、言語ＤＢ３０を文
の入力源として使用するのである。

【００９４】また、言語ＤＢ３０から文を抽出する場合
には、種文との類似度が大きい文が選択される。たとえ
ば、上述の実施例において、表１を用いて説明したよう
に、第１文と第２文とでは、文間距離が「３」というよ
うに、数値で表すことができる。したがって、言語ＤＢ
３０内のすべての文について、文間距離を求め、そし
て、類似度を算出し、類似度が閾値以上の文を順に入力
することができる。たとえば、表１に示した第１文と第
２文との類似度は、（全セル数−誤差）／全セル数＝
（５−３）／５＝４０（％）である。

【００９５】このように類似度を算出できるが、上述し
たように、種文は英文であり、異なる言語同士であるた
め、このままでは、言語ＤＢ３０の言語データ（日本
語）との文間距離を算出することができない。したがっ
て、英語ＤＢ３２についての対訳関係にある日本語ＤＢ
３４を参照するようにしてある。つまり、日本語ＤＢ３
４には、上述したように、英語ＤＢ３２内の英文に対応
する翻訳文（日本文）が蓄積されており、したがって、
種文が決定されると、日本語ＤＢ３４を参照して、その
日本文を決定することができる。そこで、この実施例で
は、このように決定された日本文を、上述の類似度の算
出に使用するようにしてある。

【００９６】なお、詳細な説明は省略するが、１つの英
文に対して複数の日本文を用意しておき、それらすべて
の日本文との間で類似度を算出するようにしてもよい。

【００９７】具体的には、ＣＰＵ１４は、図９に示すフ
ロー図に従ってデータ収集処理を実行する。なお、図９
からも分かるように、第３の実施例では、入力する文を
言語ＤＢ３０から検索するようにした以外は図２のデー
タ収集処理と同じであるため、重複した説明を省略する
とともに、同じステップには同じステップ番号を付すこ
とにする。また、図面の都合上、ステップＳ３からエン
ドまでについては省略してあるが、それらは図２と同じ
である。

【００９８】図９に示すように、ＣＰＵ１４は、ステッ
プＳ１で種文を提示すると、ステップＳ２ａで種文の日
本文を日本語ＤＢ３４から読み出し、当該日本文と言語
ＤＢ３０に含まれる文との類似度を算出する。そして、
ステップＳ２ｂで、類似度が閾値以上の文を選択してか
らステップＳ３に進む。

【００９９】ステップＳ３以降の処理は、図２に示した
処理と同じであるため、それらについての説明は割愛す
ることにする。ただし、ステップＳ３では、入力する文
が複数存在する場合には、たとえば、類似度が高い順に
入力される。

【０１００】なお、閾値は、１（％）以上９９（％）以
下の間で設定可能であり、プログラマ、設計者またはユ
ーザによって設定・変更可能である。

【０１０１】また、図示等は省略するが、第３の実施例
のおいても、上述の実施例で図４および図５を用いて説
明したようなセルの整理等の処理を追加してもよいこと
はもちろんである。

【０１０２】さらに、第２の実施例に、この第３の実施
例を適用して、既に蓄積した言語ＤＢ３０を文の入力源
として使用することもできる。

【０１０３】第３の実施例によれば、既に蓄積された言
語ＤＢを有効利用することにより、上述の実施例よりも
さらに効率よく言語データを収集することができる。

【０１０４】なお、第３の実施例では、言語ＤＢ３０か
らのみ文を検索し、入力するようにしたが、上述の実施
例のように、キーボード２８等の入力装置を用いて文を
入力することも可能である。また、予め収集した文をＨ
ＤＤ１８に記憶しておき、そこから文を入力したり、通
信回路２４を介して他の機器やインターネット上の任意
のサイトから取得した文を入力したりしてもよく、さら
に、音声認識機能を設けることにより音声によって文を
入力するようにしてもよい。

【図面の簡単な説明】

【図１】この発明の言語データ収集装置の構成の一例を
示す図解図である。

【図２】図１実施例に示すＣＰＵのデータ収集処理の一
例を示すフロー図である。

【図３】図２に示すＣＰＵの部分情報の追加処理の一例
を示すフロー図である。

【図４】図１実施例に示すＣＰＵのデータ収集処理の他
の一例を示すフロー図である。

【図５】図１実施例に示すＣＰＵのデータ収集処理のそ
の他の一例を示すフロー図である。

【図６】この発明の言語データ収集装置の構成の他の一
例を示す図解図である。

【図７】図６実施例に示すＣＰＵの部分情報の追加処理
の一例を示すフロー図である。

【図８】この発明の言語データ収集装置の構成のその他
の一例を示す図解図である。

【図９】図８実施例に示すＣＰＵのデータ収集処理の一
例を示すフロー図である。

【符号の説明】

１０ …言語データ収集装置１２ …コンピュータ１４ …ＣＰＵ１８ …ＨＤＤ２４ …通信回路３０ …言語ＤＢ３２ …英文ＤＢ３４ …日本語ＤＢ

───────────────────────────────────────────────────── フロントページの続き (72)発明者竹澤寿幸京都府相楽郡精華町光台二丁目２番地２株式会社国際電気通信基礎技術研究所内 (72)発明者菊井玄一郎京都府相楽郡精華町光台二丁目２番地２株式会社国際電気通信基礎技術研究所内 (72)発明者山本誠一京都府相楽郡精華町光台二丁目２番地２株式会社国際電気通信基礎技術研究所内Ｆターム(参考） 5B091 AA05 AB17 CA02 CC01 CC16

Claims

【特許請求の範囲】

【請求項１】データベースを構築するため任意の言語に
対応する言語データを収集する言語データ収集方法であ
って、 (a) 提示される種文に対応して入力される２以上の第１
所定数の文のそれぞれを文字列毎に区切り、 (b) 同じ文字列同士を同じセルにまとめるとともに、異
なる文字列を異なるセルに入力し、そして (c) 少なくとも前記セルに含まれる文字列に部分情報を
追加する、言語データ収集方法。
【請求項２】前記ステップ(a) は、(a-1) 前記任意の言
語による種文に対応する翻訳文について予め収集した翻
訳文を入力するステップを含む、請求項１記載の言語デ
ータ収集方法。
【請求項３】前記ステップ(a) は、(a-2) 既に構築され
た前記データベースから閾値以上の類似度を有する文を
検索するステップ、および(a-3) 検索した前記文を入力
するステップを含む、請求項１記載の言語データ収集方
法。
【請求項４】前記部分情報は前記文字列の類義語を含
み、前記ステップ(c) は、(c-1) 前記セルに含まれる前記文
字列の類義語を類義語辞書データから検索するステップ
を含む、請求項１ないし３のいずれかに記載の言語デー
タ収集方法。
【請求項５】前記部分情報は前記文字列の関連語を含
み、前記ステップ(c) は、(c-2) 前記セルに含まれる前記文
字列の関連語を関連語辞書データから検索するステップ
を含む、請求項１ないし４のいずれかに記載の言語デー
タ収集方法。
【請求項６】前記セル内に存在する前記文字列をさらに
区分けするステップ(d) をさらに備える、請求項１ない
し５のいずれかに記載の言語データ収集方法。
【請求項７】前記ステップ(d) は、(d-1) 前記文が第２
所定数入力されたか否かを検出するステップを含み、前記文が第２所定数を超えたとき、前記セル内に存在す
る前記文字列をさらに区分けする、請求項６記載の言語
データ収集方法。