JP2004110633A - 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム - Google Patents
異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム Download PDFInfo
- Publication number
- JP2004110633A JP2004110633A JP2002274708A JP2002274708A JP2004110633A JP 2004110633 A JP2004110633 A JP 2004110633A JP 2002274708 A JP2002274708 A JP 2002274708A JP 2002274708 A JP2002274708 A JP 2002274708A JP 2004110633 A JP2004110633 A JP 2004110633A
- Authority
- JP
- Japan
- Prior art keywords
- related word
- word
- notation
- dictionary
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】異表記辞書101に含まれる表記単語Wの関連語を抽出する関連語取得部103、取得された関連語と表記単語Wとの類似度を算出し、関連語が表記単語Wに類似しているか否か判定する異表記フィルタ115を備え、異表記フィルタ115が、関連語が表記単語Wに類似していると判定すると、関連語を異表記辞書101に追加する。
【選択図】 図1
Description
【発明の属する技術分野】
本願発明は、異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラムに係り、基本辞書を自動的に拡充する異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラムに関する。
【0002】
【従来の技術】
文書を自動的に分類し、分類の結果を使ってさらに文書を処理(言語処理ともいう)する場合、異表記された語句に対する扱いが問題になる。異表記とは、同じ意味の語句を異なる表記のし方で表すことをいい、例えば日本語においては「コンピュータ」と「コンピューター」、「取り扱い」と「取扱」などが異表記にあたる。
【0003】
また、欧州言語においては、一つの単語について単数形、複数形、現在形、過去形などの何通りかの異なる表記が存在する。欧州言語の異なる表記はそれぞれ異なる概念を含む。このため、欧州言語の表記の相違は日本語の異表記と異なるが、言語処理における検索や文書分類において単なる異表記として扱う場合が多い。
【0004】
単純に文字の配置だけを比較して語句を分類すると、例えば文書にある「コンピュータ」とコンピューターとは、別々のグループ(群)に分類されてしまい、以降の処理によっては不具合が生じる。また、「取り扱い」の語句を検索した場合に「取扱」の語句についてヒットしないことが不具合になることもある。
【0005】
上記した異表記の問題に対応するための一つの方法として、カタカナによって表記される単語の異表記に的を絞り、所定のルールを定めて異表記の展開を行うものがある。ルールにより異表記を生成する処理は、ルールサイズを小さくすることが可能であり、処理が効率的にできる(例えば特許文献1参照)。
【0006】
他の従来の技術として、キーワード検索用の異表記辞書を作成するものがある。この技術では、元ととなる辞書にある語句(エントリ)を対象とし、語句と類似度が一定値以上のものを異表記候補として異表記辞書を作成している(例えば特許文献2参照)。
【0007】
【特許文献1】
特開平6−44295号公報(請求項1)
【特許文献2】
特開平7−73197号公報(請求項1)
【0008】
【発明が解決しようとする課題】
しかしながら、ルールにより異表記を生成する処理は、ルールそのものの設計と整合性維持に手間がかかることが多く、個別の語句のレベルで、辞書的に処理を進めてしまう方がデータ作成、維持の点で効率的な場合も多い。
【0009】
また、一般的に元の辞書にエントリが完備していることは多くない。例えば、元の辞書に「インターフェース」は存在していても「インタフェイス」は存在していないなど、辞書の語彙のそのものが問題となることがあった。
【0010】
本特許は、上記した点に鑑みてなされたものであり、データの作成、維持の負担を軽減し、しかも自動的に異表記を拡充可能で、より多くの語彙を持つ異表記辞書を作成することができる異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラムを提供することを目的とする。
【0011】
【課題を解決するための手段】
上記目的を達成するため、請求項1にかかる異表記辞書作成装置は、基本辞書に含まれる語句を複数の文書に対照し、該語句に基づいて複数の前記文書における語句の関連語を抽出する関連語取得手段と、前記関連語取得手段によって取得された関連語と前記語句との類似度を算出し、前記関連語が前記語句に類似しているか否か判定する類似度判定手段と、前記類似度判定手段によって前記関連語が前記語句に類似していると判定された場合、該関連語を前記基本辞書に追加する関連語追加手段と、を備えることを特徴とする。
【0012】
この請求項1に記載の発明によれば、基本辞書に含まれる語句の関連語を抽出し、語句との類似度を算出する。そして、関連後が語句に類似していると判定された場合には、この関連後を基本辞書に追加する。このため、辞書にある語句に関する語句のうち、さらに語句と類似性を持つ語句(異表記)を辞書に追加することができるので、より多くの語彙を持つ異表記辞書を作成することができる。
また、この処理を自動的にできるので、異表記辞書のデータの作成、維持の負担を軽減することが可能である。
【0013】
請求項2に記載の発明にかかる異表記辞書作成装置は、前記関連語取得手段が複数の文書のキーワードを抽出するキーワード抽出手段をさらに備え、前記関連語取得手段は、前記語句を用いて複数の文書を検索することにより文書の少なくとも一部を含む文書群から複数のキーワードを抽出し、抽出された複数のキーワードから前記語句を含まず、かつ複数の前記キーワードを含むことを条件にして複数の文書を検索し、検索の結果得られた文書から該文書を表すキーワードを抽出し、抽出されたキーワードを関連語とすることを特徴とする。
【0014】
この請求項2に記載の発明によれば、複数の文書を検索することにより文書の少なくとも一部を含む文書群から複数のキーワードを抽出し、抽出されたキーワード基づいて関連語を取得するので、少ない検索回数で効率的に関連語を取得し、ひいては異表記辞書の拡充ができる。
【0015】
請求項3に記載の発明にかかる異表記辞書作成装置は、前記類似度判定手段は、前記関連語と前記語句との類似度を、前記関連語を表記する文字と前記語句を表記する文字との一致によって判定することを特徴とする。
【0016】
この請求項3に記載の発明によれば、関連語と語句との類似度を簡易に判定することができる。
【0017】
請求項4に記載の発明にかかる異表記辞書作成装置は、前記関連語および前記語句を表記する表記文字を置き換えて示す置き換え表記文字を蓄積する置き換え表記文字蓄積手段をさらに備え、前記類似度判定手段は、前記関連語と前記語句との類似度を、前記語句の少なくとも一部の文字を前記置き換え表記文字によって置き換えた表記と前記関連語との一致によって判定することを特徴とする。
【0018】
この請求項4に記載の発明によれば、関連語と語句との類似度を、語句の少なくとも一部の文字を置き換え表記文字によって置き換えた表記と前記語句との一致によって判定するので、語句に関するさらに多くの関連語の類似性を判断し、類似した関連語を異表記辞書に登録することができる。
【0019】
請求項5に記載の発明にかかる異表記辞書作成装置は、前記関連語取得手段が、インターネット上の文書蓄積手段に蓄積されている複数の文書に前記語句を対照することを特徴とする。
【0020】
この請求項5に記載の発明によれば、インターネット上の文書蓄積手段から文書を取り出して語句を対照することにより、文書を蓄積するDBを自身が持つ必要がなくなって構成を小型、簡易にすることができる。
【0021】
請求項6に記載の発明にかかる異表記辞書作成装置は、基本辞書に含まれる語句を複数の対訳辞書に対照し、該語句を各対訳辞書によって対訳する対訳手段と、前記対訳手段による対訳によって得られた訳文から前記語句に関する関連語を取得する関連語取得手段と、前記関連語取得手段によって取得された関連語と前記語句との類似度を算出し、前記関連語が前記語句に類似しているか否か判定する類似度判定手段と、前記類似度判定手段によって前記関連語が前記語句に類似していると判定された場合、該関連語を前記基本辞書に追加する関連語追加手段と、を備えることを特徴とする。
【0022】
この請求項6に記載の発明によれば、複数の対訳辞書を用いることにより、大規模な文書蓄積手段と文書蓄積手段に対する検索を用いない、簡便な方法により関連語を取得することができる。
【0023】
請求項7に記載の発明にかかる異表記辞書作成方法は、基本辞書に含まれる語句を複数の文書に対照し、該語句に基づいて複数の前記文書における語句の関連語を抽出する関連語取得ステップと、前記関連語取得ステップにおいて取得された関連語と前記語句との類似度を算出し、前記関連語が前記語句に類似しているか否か判定する類似度判定ステップと、前記類似度判定ステップにおいて前記関連語が前記語句に類似していると判定された場合、該関連語を前記基本辞書に追加する関連語追加ステップと、を含むことを特徴とする。
【0024】
この請求項7に記載の発明によれば、基本辞書に含まれる語句の関連語を抽出し、語句との類似度を算出する。そして、関連後が語句に類似していると判定された場合には、この関連後を基本辞書に追加する。このため、辞書にある語句に関する語句のうち、さらに語句と類似性を持つ語句(異表記)を辞書に追加することができるので、より多くの語彙を持つ異表記辞書を作成することができる。
また、この処理を自動的にできるので、異表記辞書のデータの作成、維持の負担を軽減することが可能である。
【0025】
請求項8に記載の発明にかかる異表記辞書作成方法は、複数の文書のキーワードを抽出するキーワード抽出ステップをさらに含み、前記関連語取得ステップは、前記語句を用いて複数の文書を検索することにより文書の少なくとも一部を含む文書群から複数のキーワードを抽出し、抽出された複数のキーワードから前記語句を含まず、かつ複数の前記キーワードを含むことを条件にして複数の文書を検索し、検索の結果得られた文書から該文書を表すキーワードを抽出し、抽出されたキーワードを関連語とすることを特徴とする。
【0026】
この請求項8に記載の発明によれば、複数の文書を検索することにより文書の少なくとも一部を含む文書群から複数のキーワードを抽出し、抽出されたキーワード基づいて関連語を取得するので、少ない検索回数で効率的に関連語を取得し、ひいては異表記辞書の拡充ができる。
【0027】
請求項9に記載の発明にかかる異表記辞書作成方法は、基本辞書に含まれる語句を複数の対訳辞書に対照し、該語句を各基本辞書によって対訳する対訳ステップと、前記対訳手段による対訳によって得られた訳文から前記語句に関する関連語を取得する関連語取得ステップと、前記関連語取得工程において取得された関連語と前記語句との類似度を算出し、前記関連語が前記語句に類似しているか否か判定する類似度判定ステップと、前記類似度判定ステップにおいて前記関連語が前記語句に類似していると判定された場合、該関連語を前記基本辞書に追加する関連語追加ステップと、を含むことを特徴とする。
【0028】
この請求項9に記載の発明によれば、複数の対訳辞書を用いることにより、大規模な文書蓄積手段に対する検索を用いない、簡便な方法により関連語を取得することができる。
【0029】
請求項10に記載の発明にかかるプログラムは、コンピュータに、前記請求項7〜9のいずれか一つに記載の異表記辞書作成方法を実行させることを特徴とするものである。
【0030】
この請求項10に記載の発明によれば、コンピュータに、前記請求項7〜9のいずれか一つに記載の異表記辞書作成方法を実行させるプログラムを提供することができる。
【0031】
【発明の実施の形態】
(実施の形態1)
図1は、本発明の実施の形態1の異表記辞書作成装置の構成を説明するための機能ブロック図である。実施の形態1の異表記辞書作成装置は、基本辞書に含まれる語句(実施の形態1では単語とし、この単語を一定の表記方法で表記された単語とし、表記単語Wと記す)を複数の文書に対照し、対照された表記単語Wに基づいて複数の文書における表記単語Wの関連語を取得する関連語取得部103、キーワード抽出部105、検索部109と、取得された関連語と表記単語Wとの類似度を算出し、関連語が表記単語Wに類似しているか否か判定する異表記フィルタ115とを備えている。また、異表記フィルタ115は、関連語が表記単語Wに類似していると判定した場合、この関連語を異表記辞書101に追加する関連語追加手段として機能する。
【0032】
実施の形態1の異表記辞書作成装置は、異表記辞書101を基本辞書として関連語を拡充するものである。また、表記単語Wを対照する複数の文書を蓄積した文書DB111を備えている。
【0033】
さらに、実施の形態1の異表記辞書作成装置は、検索部109の検索の結果得られる文書群を格納しておく検索結果文書群格納部107、後述する同一視辞書113を備えている。
【0034】
図1に示した構成において、検索部109は、表記単語Wを用いて文書DB111に蓄積された複数の文書を検索する。そして、文書の少なくとも一部を含む文書群を取得する。キーワード抽出部105は、文書群から複数のキーワードを抽出し、抽出された複数のキーワードから表記単語Wを含まず、かつ、抽出された複数のキーワードを含むことを条件にして文書DB111に蓄積された複数の文書を検索する。さらに、検索の結果得られた文書からこの文書を表すキーワードを抽出し、抽出されたキーワードを関連語とする。
【0035】
すなわち、文書DB(データベース)111は、予め大量に文書を格納したDBである。格納された文書は、品詞や単語分割等の処理を施されている必要は無く、一般的なテキストファイルでもよい。表1に異表記辞書101にある表記とその標準化表記との例を示す。表1に示すように、異表記辞書101では、英単語については原形を標準化表記といい、活用形を対応する英単語の異表記とみなす。
【表1】
【0036】
キーワード抽出部105は、検索結果文書群格納部107に格納されたテキスト・データを対象にしてテキストデータの特徴を示すキーワードを抽出する。キーワード候補の抽出は、例えば、周知の技術であるTD(term frequency)・IDF(inverse document frequency)の値(重み)を用いる手法によって実現することができる。以下、キーワードの抽出の具体的な方法について説明する。
【0037】
関連語取得部103は、まず、異表記辞書101にある単語から1つの表記単語Wを取り出し、取り出された表記単語Wを検索部109に送る。検索部109は、与えられた表記単語Wに基づいて文書DB111を検索する。そして、文書DB111に蓄積されている文書に対して表記単語Wを検索する。そして、検索の結果得られた表記単語Wを含む文書に含まれるテキスト・データを検索結果文書群格納部107に格納する。なお、本実施の形態は、検索の具体的な方法として単純な文字列一致を用いる。
【0038】
TD・IDFを用いてキーワードを抽出する場合、次に、キーワード抽出部105は、文書群の中から抽出したキーワードをキーワード候補として検索部109に送る。検索部109は、文書DB111に蓄積されている文書をキーワード候補で検索し、ヒットした文書数(ヒット文書数)を得る。そして、ヒット文書数を用い、以下の式によってTD・IDFの値を算出する。
An×log(文書DB内文書総数/ヒット文書数)
An:文書DB111内のキーワード候補nの出現数 …式(1)
【0039】
なお、キーワード候補を得るためには、対象となるテキスト・データを単語単位に分割する必要がある。実施の形態1では、簡単のため、表2に示す単語分割規則にしたがってテキスト・データを単語単位に分割するものとした。
【表2】
【0040】
キーワード抽出部105は、TF・IDFの値を基づいてキーワード候補を順位付けし、上位5位までをキーワードとして関連語取得部103に出力する。また、キーワード抽出部105は、関連語取得部103からの問い合わせに対してキーワードを返す。
【0041】
表3は、関連語取得部103からの問い合わせと、問い合わせに対して返されるキーワードとの一例を示すものである。関連語取得部103は、得られたキーワードを検査する。そして、キーワードに表記単語Wが存在した場合、これを除外する。
【表3】
【0042】
次に、関連語取得部103は、検索部109に対してキーワード群を含み、かつ異表記辞書101にあった元々の単語表記を含まないことを条件にして検索を実施する。検索部109は、文書DB111に蓄積された文書をキーワード群を含み、かつ異表記辞書101にあった元々の単語表記を含まないことを条件にして検索する。この結果得られた文書群からキーワードを抽出し、検索に使用したキーワード群を除外した単語群が、表記単語Wに対する関連語となる。関連語取得部103は、関連語を関連語データDとして格納する。
【0043】
次に、異表記フィルタ115は、得られた関連語データDと、表記単語Wとの類似度を計算し、類似度0.8以上の単語を異表記データとして異表記辞書101に登録する。実施の形態1では、異表記フィルタ115が、関連語データDと表記単語Wとの類似度を、関連語を表記する文字と表記単語Wを表記する文字との一致によって判定する。より具体的には、表記文字の一致(類似度)は、以下の式によって算出される。なお、以下の式において、元表記とは異表記辞書101に元々あった単語の表記である。また、評価先表記とは、元表記との類似度を評価すべき単語の表記である。
類似度={評価先表記に出現した元表記中の文字(同一視文字)の出現数
+元表記に出現した評価先表記中の文字(同一視文字)の出現数}/
{評価先表記の文字長+元表記の文字長} …式(2)
【0044】
さらに、実施の形態1の異表記辞書作成装置は、関連語および表記単語Wを表記する表記文字を置き換えて示す置き換え表記文字を蓄積する置き換え表記文字蓄積手段である同一視辞書113をさらに備えている。異表記フィルタ115は、関連語と表記単語Wとの類似度を、表記単語Wの少なくとも一部の文字を同一視辞書113にある置き換え表記文字によって置き換えた表記と表記単語Wとの一致によって判定する。
【0045】
表4は、同一視辞書113の一例を示している。表4に示した同一視辞書113は、アルファベットの大文字、小文字、全角、半角を同一視すること、漢字とその書き下しひらがなとを同一視することを示している。異表記フィルタ115は、同一視辞書113を参照し、元表記、評価先表記の表記の仕方を変えた(置き換えた)同一の単語についても類似度を算出する。このとき、文字の出現数は、置き換え後の文字列について文字数をカウントする。
【表4】
【0046】
たとえば表記単語W「回覧」と関連語「回らん」の類似度は、以下のように計算される。すなわち、「回覧」のうち、漢字の書き下しひらがなとは同一視辞書113によって同一視されることから、「回らん」や「かいらん」は、「回覧」と同一視される。したがって、評価先表記に出現した元表記中の文字は回、ら、ん、の3文字である。また、元表記に出現した文字であって、評価先表記に出現した文字は回の一つである。そして、評価先の文字長が3文字、元表記の文字長が2文字であるから、「回覧」と「回らん」との類似度は、以下のように算出される。実施の形態1では、類似度が0.8以上であることから、「回らん」は「回覧」の異表記と判定される。
類似度={3+1}/(3+2)=0.8
【0047】
また、元表記「インターフェース」と評価先表記「インタフェイス」の類似度を計算する。この場合、評価先表記に出現した元表記中の文字は、「イ」、「ン」、「タ」、「フ」、「ェ」、「ス」、の6文字である。また、元表記に出現した文字であって、評価先表記に出現した文字も、「イ」、「ン」、「タ」、「フ」、「ェ」、「ス」、の6文字である。そして、評価先の文字長が7文字、元表記の文字長が8文字であるから、「インターフェース」と「インタフェイス」との類似度は、以下のように算出される。実施の形態1では、類似度が0.8以上であることから、「インタフェイス」は「インターフェース」の異表記と判定される。
類似度={6+6}/15=0.8
【0048】
同様に、元表記「color」と評価先表記「colour」の類似度を計算すると、以下のようになり、「colour」は「color」の異表記と判定される。
類似度={5+5}/11=0.91
【0049】
表5は、算出された類似度の大きさによってそれぞれ「回覧」「インターフェース」「color」の異表記と判定された単語を関連語として異表記辞書101に追加した例を示すものである。
【表5】
【0050】
なお、本発明の異表記辞書作成装置は、文書DB111を、ネットワーク上におき、インターネット上の文書DB111に蓄積されている複数の文書に表記単語を対照することも可能である。この際、文書DB111の情報の取得は、例えばWWWによって可能になる。なお、文書DB111をネットワーク上においた場合、DBの総文書数を得ることが困難である。このため、式(1)における総文書数は、検索部109(ネットワーク上の検索エンジンを用いてもよい)ごとに固有な、総文書数推定値をあらかじめ与えておいてもよい。
【0051】
図2は、以上述べた実施の形態1の異表記辞書作成装置で行われる異表記辞書作成方法を説明するためのフローチャートである。関連語取得部103は、表記単語Wを入力し(ステップS201)、表記単語で文書DB111に蓄積されている文書を検索する(ステップS202)。そして、検索の結果表記単語Wを含む文書群を取得する(ステップS203)。取得した文書群は、検索結果文書群格納部107に格納される。
【0052】
次に、キーワード抽出部105は、文書群からキーワードを抽出し(ステップS204)、キーワードが表記単語Wを含むか否か判断する(ステップS205)。表記単語Wが含まれていた場合(ステップS205:Yes)、抽出されたキーワードから表記単語Wを除外し、キーワードを含み、また、表記単語Wを含まないという条件で文書群を検索する。そして、得られた文書群のキーワードを抽出し、抽出されたキーワードを関連語とする(ステップS206)。
【0053】
関連語の関連語データDは、異表記フィルタ115に送られる。異表記フィルタ115は、関連語と表記単語Wとの類似度を算出する(ステップS207)。
そして、算出された類似度が一定の値以上の関連語を「類似」と判定し(ステップS208)、この関連語が表記単語Wの異表記であるとして異表記辞書101に追加する(ステップS209)。そして、類似度を判定すべき関連語の類似度判定がすべて終了したか否か判断し(ステップS210)、終了していない場合には(ステップS210:No)、次に処理すべき関連語の類似度を算出する。
また、関連語の類似度の判定がすべて終了した場合(ステップS210:Yes)、処理を終了する。
【0054】
以上述べた実施の形態1の異表記辞書作成装置は、異表記辞書の作成を、文書からの関連語の取得と、その中からの異表記の選別という2段階のプロセスによって行うことにより、異表記辞書101の拡充を高い信頼度で自動的に実行することが可能になる。また、自動処理にしたことにより、文書DB111を大規模にすることが容易になり、人手によって語彙を拡充する場合にくらべ、漏れのない拡充を実施することが可能になる。
【0055】
また、実施の形態1の異表記辞書作成装置は、関連語取得を文書検索とキーワード抽出で行うことにより、検索の実行回数を、キーワードの数の範囲内に収めることが可能になり、比較的少ない検索回数で、効率的に関連語取得を行うことが可能になる。
【0056】
また、実施の形態1の異表記辞書作成装置は、すでに関連語という範囲で選別が済んだ語群を対照に異表記を抽出するため、異表記の抽出を簡便な上に効果的に実施することが可能となる。また、同一視辞書113を持つことにより、単純な文字の一致だけでなく、大文字、小文字、半角、全角などの異文字種の対応や、ひらがな書き下しなどの対応を構成文字一致数という簡単な枠組みに取り込むことが可能になる。さらに、文書DB111は特に品詞等のタグ情報を付与されていることを必要としないため、文書DB111としてWWW上の文書群を用いることが可能であり、これにより、独自に大量の文書を用意することなく、異表記辞書の生成が可能となる。
【0057】
(実施の形態2)
図3は、実施の形態2の異表記辞書作成装置を説明するための機能ブロック図である。なお、図3に示した異表記辞書作成装置は図1に示した異表記辞書作成装置と同様の構成を含んでいる。このため、実施の形態2の異表記辞書作成装置において実施の形態1の異表記辞書作成装置と同様の構成については同様の符号を付し、説明の一部を略すものとする。
【0058】
実施の形態2の異表記辞書作成装置は、実施の形態1の異表記辞書作成装置と同様に、異表記辞書101を基本辞書とし、異表記辞書101を拡充する。このため、実施の形態2の異表記辞書作成装置は、複数の辞書305a〜305d、異表記辞書101に含まれる語句である表記単語Wを複数の辞書305a〜305dに対照し、表記単語Wを辞書305a〜305dによって対訳する対訳手段である辞書問合せ部303、辞書問合せ部303による対訳によって得られた訳文から表記単語Wに関する関連語を取得する関連語取得部103、関連語取得部103によって取得された関連語と表記単語Wとの類似度を算出し、関連語が表記単語Wに類似しているか否か判定する異表記フィルタ115を備えている。また、異表記フィルタ115は、関連語が表記単語Wに類似していると判定した場合、この関連語を異表記辞書101に追加する関連語追加手段として機能する。
【0059】
すなわち、辞書問合せ部303は、関連語取得部103より表記単語Wを受け取る。そして、表記単語Wを、複数の対訳辞書305a〜305dに対照する(問い合わせる)。そして、各辞書で得られる結果を返す。表6は、辞書問合せ部303の問い合わせによって得られる関連語を示す。表6に示す関連語は、関連語データDとして異表記フィルタ115に渡される。実施の形態2では、表記単語Wの文字数と関連語データDの文字数との一致によって両者の類似性を判断する。
【表6】
【0060】
このため、異表記フィルタ115は、表記単語Wの文字数と関連語データDの文字数とをチェックする。そして、例えば表記単語Wである「計算機」と文字数が一致する「計算者」「計算器」「計算表」「電算機」を「類似」と判定し、異表記として抽出し、異表記辞書101に登録する。抽出された異表記の候補にノイズが残ることがあるため、本実施例では異表記辞書101への登録前に、提示・修正部を設け、人手による修正を行う構成とした。
【0061】
図4は、以上述べた実施の形態2の異表記辞書作成装置で行われる異表記辞書作成方法を説明するためのフローチャートである。関連語取得部103は、表記単語Wを入力し(ステップS401)、複数の辞書のうちのいずれかに対照して表記単語Wを対訳(問い合わせ)する(ステップS402)。そして、複数の辞書の全てに対して対訳の処理がなされたか否か判断し(ステップS403)、未だ対訳に用いられていない辞書があれば(ステップS403:No)、この辞書によって表記単語Wを対訳(問い合わせ)する。
【0062】
また、複数の辞書のすべてにおいて表記単語Wをの対訳が終了した場合(ステップS403:Yes)、関連語取得部103が対訳の結果得られた単語を関連語として取得する(ステップS404)。異表記フィルタ115は、関連語と表記単語Wとの例えば文字数の一致によって関連語の表記単語Wに対する類似度を算出し(ステップS405)、算出された類似度によって関連語が表記単語Wに類似するものか否か判断する(ステップS406)。判断の結果、関連語が表記単語Wに類似する場合(ステップS406:Yes)、この関連語が表記単語Wの異表記であるとして異表記辞書101に追加する(ステップS407)。
【0063】
また、異表記フィルタ115は、ステップS406において関連語が表記単語Wに類似していないと判断した場合(ステップS406:No)、異表記辞書101にこの関連語を追加せずに類似性を判断すべき関連語のすべてについて処理を終了したか否か判断する(ステップS408)。判断の結果、処理が終了した場合には(ステップS408:Yes)、処理を終了する。また、類似性を判断すべき関連語の処理が未だ終了していない場合(ステップS408:No)、次の関連語と表記単語Wとの類似性を判断する。
【0064】
以上述べたように、実施の形態2の異表記辞書作成装置は、関連語取得の方法として複数の対訳辞書を用いることによって、より簡便な構成で関連語を得ることが可能になる。
【0065】
なお、実施の形態1、実施の形態2の異表記辞書作成方法は、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(R)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供される。また、実施の形態1、実施の形態2の異表記辞書作成方法をコンピュータに実行させるためのプログラムをインターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
【0066】
【発明の効果】
以上説明したように、請求項1に記載の発明は、辞書にある語句に関する語句のうち、さらに語句と類似性を持つ語句(異表記)を自動的に辞書に追加することができるので、より多くの語彙を持つ異表記辞書を作成することができ、さらに異表記辞書のデータの作成、維持の負担を軽減する異表記辞書作成装置を提供することができるという効果を奏する。
【0067】
請求項2に記載の発明は、少ない検索回数で効率的に関連語を取得し、ひいては異表記辞書の拡充ができる異表記辞書作成装置を提供することができるという効果を奏する。
【0068】
請求項3に記載の発明は、関連語と語句との類似度を簡易に判定する異表記辞書作成装置を提供することができるという効果を奏する。
【0069】
請求項4に記載の発明は、語句に関するさらに多くの関連語の類似性を判断し、類似した関連語を異表記辞書に登録する異表記辞書作成装置を提供することができるという効果を奏する。
【0070】
請求項5に記載の発明は、文書を蓄積するDBを自身が持つ必要がなくなって構成を小型、簡易にする異表記辞書作成装置を提供することができるという効果を奏する。
【0071】
請求項6に記載の発明は、大規模な文書蓄積手段と文書蓄積手段に対する検索を用いない、簡便な方法により関連語を取得する異表記辞書作成装置を提供することができるという効果を奏する。
【0072】
請求項7に記載の発明は、辞書にある語句に関する語句のうち、さらに語句と類似性を持つ語句(異表記)を自動的に辞書に追加することができるので、より多くの語彙を持つ異表記辞書を作成することができ、さらに異表記辞書のデータの作成、維持の負担を軽減する異表記辞書作成方法を提供できるという効果を奏する。
【0073】
請求項8に記載の発明は、少ない検索回数で効率的に関連語を取得し、ひいては異表記辞書の拡充ができる異表記辞書作成方法を提供できるという効果を奏する。
【0074】
請求項9に記載の発明は、大規模な文書蓄積手段に対する検索を用いない、簡便な方法により関連語を取得する異表記辞書作成方法を提供できるという効果を奏する。
【0075】
請求項10に記載の発明は、コンピュータに、前記請求項7〜9のいずれか一つに記載の異表記辞書作成方法を実行させるプログラムを提供することができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の実施の形態1の異表記辞書作成装置の構成を説明するための機能ブロック図である。
【図2】実施の形態1の異表記辞書作成装置で行われる異表記辞書作成方法を説明するためのフローチャートである。
【図3】実施の形態2の異表記辞書作成装置を説明するための機能ブロック図である。
【図4】実施の形態2の異表記辞書作成装置で行われる異表記辞書作成方法を説明するためのフローチャートである。
【符号の説明】
101 異表記辞書
103 関連語取得部
105 キーワード抽出部
107 検索結果文書群格納部
109 検索部
111 文書DB
113 同一視辞書
115 異表記フィルタ
303 辞書問合せ部
305a〜305d 対訳辞書
D 関連語データ
W 表記単語
Claims (10)
- 基本辞書に含まれる語句を複数の文書に対照し、該語句に基づいて複数の前記文書における語句の関連語を抽出する関連語取得手段と、
前記関連語取得手段によって取得された関連語と前記語句との類似度を算出し、前記関連語が前記語句に類似しているか否か判定する類似度判定手段と、
前記類似度判定手段によって前記関連語が前記語句に類似していると判定された場合、該関連語を前記基本辞書に追加する関連語追加手段と、
を備えることを特徴とする異表記辞書作成装置。 - 前記関連語取得手段が複数の文書のキーワードを抽出するキーワード抽出手段をさらに備え、
前記関連語取得手段は、前記語句を用いて複数の文書を検索することにより文書の少なくとも一部を含む文書群から複数のキーワードを抽出し、抽出された複数のキーワードから前記語句を含まず、かつ複数の前記キーワードを含むことを条件にして複数の文書を検索し、検索の結果得られた文書から該文書を表すキーワードを抽出し、抽出されたキーワードを関連語とすることを特徴とする請求項1に記載の異表記辞書作成装置。 - 前記類似度判定手段は、前記関連語と前記語句との類似度を、前記関連語を表記する文字と前記語句を表記する文字との一致によって判定することを特徴とする請求項1または2に記載の異表記辞書作成装置。
- 前記関連語および前記語句を表記する表記文字を置き換えて示す置き換え表記文字を蓄積する置き換え表記文字蓄積手段をさらに備え、前記類似度判定手段は、前記関連語と前記語句との類似度を、前記語句の少なくとも一部の文字を前記置き換え表記文字によって置き換えた表記と前記関連語との一致によって判定することを特徴とする請求項1〜3のいずれか一つに記載の異表記辞書作成装置。
- 前記関連語取得手段は、インターネット上の文書蓄積手段に蓄積されている複数の文書に前記語句を対照することを特徴とする請求項1〜4のいずれか一つに記載の異表記辞書作成装置。
- 基本辞書に含まれる語句を複数の対訳辞書に対照し、該語句を各対訳辞書によって対訳する対訳手段と、
前記対訳手段による対訳によって得られた訳文から前記語句に関する関連語を取得する関連語取得手段と、
前記関連語取得手段によって取得された関連語と前記語句との類似度を算出し、前記関連語が前記語句に類似しているか否か判定する類似度判定手段と、
前記類似度判定手段によって前記関連語が前記語句に類似していると判定された場合、該関連語を前記基本辞書に追加する関連語追加手段と、
を備えることを特徴とする異表記辞書作成装置。 - 基本辞書に含まれる語句を複数の文書に対照し、該語句に基づいて複数の前記文書における語句の関連語を抽出する関連語取得ステップと、前記関連語取得ステップにおいて取得された関連語と前記語句との類似度を算出し、前記関連語が前記語句に類似しているか否か判定する類似度判定ステップと、
前記類似度判定ステップにおいて前記関連語が前記語句に類似していると判定された場合、該関連語を前記基本辞書に追加する関連語追加ステップと、
を含むことを特徴とする異表記辞書作成方法。 - 複数の文書のキーワードを抽出するキーワード抽出ステップをさらに含み、
前記関連語取得ステップは、前記語句を用いて複数の文書を検索することにより文書の少なくとも一部を含む文書群から複数のキーワードを抽出し、抽出された複数のキーワードから前記語句を含まず、かつ複数の前記キーワードを含むことを条件にして複数の文書を検索し、検索の結果得られた文書から該文書を表すキーワードを抽出し、抽出されたキーワードを関連語とすることを特徴とする請求項7に記載の異表記辞書作成方法。 - 基本辞書に含まれる語句を複数の対訳辞書に対照し、該語句を各基本辞書によって対訳する対訳ステップと、
前記対訳手段による対訳によって得られた訳文から前記語句に関する関連語を取得する関連語取得ステップと、
前記関連語取得工程において取得された関連語と前記語句との類似度を算出し、前記関連語が前記語句に類似しているか否か判定する類似度判定ステップと、前記類似度判定ステップにおいて前記関連語が前記語句に類似していると判定された場合、該関連語を前記基本辞書に追加する関連語追加ステップと、
を含むことを特徴とする異表記辞書作成方法。 - コンピュータに、前記請求項7〜9のいずれか一つに記載の異表記辞書作成方法を実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002274708A JP4253483B2 (ja) | 2002-09-20 | 2002-09-20 | 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002274708A JP4253483B2 (ja) | 2002-09-20 | 2002-09-20 | 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004110633A true JP2004110633A (ja) | 2004-04-08 |
JP4253483B2 JP4253483B2 (ja) | 2009-04-15 |
Family
ID=32271102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002274708A Expired - Fee Related JP4253483B2 (ja) | 2002-09-20 | 2002-09-20 | 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4253483B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007149047A (ja) * | 2005-04-01 | 2007-06-14 | Ricoh Co Ltd | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 |
JP2009015417A (ja) * | 2007-07-02 | 2009-01-22 | Hitachi Ltd | 類似語判断補助装置及び類似語判断補助方法 |
WO2020196100A1 (ja) * | 2019-03-28 | 2020-10-01 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282367A (ja) * | 1992-03-30 | 1993-10-29 | Nippon Telegr & Teleph Corp <Ntt> | 関連キーワード自動生成装置 |
JPH0773197A (ja) * | 1993-09-03 | 1995-03-17 | Fujitsu Ltd | 異表記語辞書作成支援装置 |
JPH0869474A (ja) * | 1994-08-29 | 1996-03-12 | Fujitsu Ltd | 類似文字列検索装置 |
JPH08287083A (ja) * | 1995-04-12 | 1996-11-01 | Nippon Telegr & Teleph Corp <Ntt> | 辞書未登録語展開方法及び装置 |
JPH0962700A (ja) * | 1995-08-29 | 1997-03-07 | Nippon Telegr & Teleph Corp <Ntt> | 辞書構築方法及び装置 |
JPH0992700A (ja) * | 1995-09-25 | 1997-04-04 | Nec Corp | 半導体評価素子及びその評価方法 |
JP2000331032A (ja) * | 1996-10-31 | 2000-11-30 | Fuji Xerox Co Ltd | 文書処理装置、単語抽出装置及び単語抽出方法 |
JP2001043236A (ja) * | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
JP2002230020A (ja) * | 2001-01-31 | 2002-08-16 | Canon Inc | 情報検索装置、情報検索方法、及び記憶媒体 |
-
2002
- 2002-09-20 JP JP2002274708A patent/JP4253483B2/ja not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282367A (ja) * | 1992-03-30 | 1993-10-29 | Nippon Telegr & Teleph Corp <Ntt> | 関連キーワード自動生成装置 |
JPH0773197A (ja) * | 1993-09-03 | 1995-03-17 | Fujitsu Ltd | 異表記語辞書作成支援装置 |
JPH0869474A (ja) * | 1994-08-29 | 1996-03-12 | Fujitsu Ltd | 類似文字列検索装置 |
JPH08287083A (ja) * | 1995-04-12 | 1996-11-01 | Nippon Telegr & Teleph Corp <Ntt> | 辞書未登録語展開方法及び装置 |
JPH0962700A (ja) * | 1995-08-29 | 1997-03-07 | Nippon Telegr & Teleph Corp <Ntt> | 辞書構築方法及び装置 |
JPH0992700A (ja) * | 1995-09-25 | 1997-04-04 | Nec Corp | 半導体評価素子及びその評価方法 |
JP2000331032A (ja) * | 1996-10-31 | 2000-11-30 | Fuji Xerox Co Ltd | 文書処理装置、単語抽出装置及び単語抽出方法 |
JP2001043236A (ja) * | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
JP2002230020A (ja) * | 2001-01-31 | 2002-08-16 | Canon Inc | 情報検索装置、情報検索方法、及び記憶媒体 |
Non-Patent Citations (2)
Title |
---|
伊東秀夫: "類義語のオンライン検索", 情報処理学会研究報告, vol. 第2002巻,第87号, JPN6008014749, JP, pages 59 - 63, ISSN: 0001228870 * |
相澤彰子、外1名: "著者キーワード中での共起に基づく専門用語間の関連度計算法", 電子情報通信学会論文誌, vol. 第J83-D-I巻,第11号, JPN6008034082, 25 November 2000 (2000-11-25), JP, pages 1154 - 1162, ISSN: 0001084256 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007149047A (ja) * | 2005-04-01 | 2007-06-14 | Ricoh Co Ltd | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 |
JP2009015417A (ja) * | 2007-07-02 | 2009-01-22 | Hitachi Ltd | 類似語判断補助装置及び類似語判断補助方法 |
WO2020196100A1 (ja) * | 2019-03-28 | 2020-10-01 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4253483B2 (ja) | 2009-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11645475B2 (en) | Translation processing method and storage medium | |
Chen et al. | Unknown word extraction for Chinese documents | |
US7478033B2 (en) | Systems and methods for translating Chinese pinyin to Chinese characters | |
US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
US20070021956A1 (en) | Method and apparatus for generating ideographic representations of letter based names | |
JP2001043236A (ja) | 類似語抽出方法、文書検索方法及びこれらに用いる装置 | |
JP2007257644A (ja) | 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置 | |
KR101544690B1 (ko) | 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램 | |
JP2004038976A (ja) | 用例ベースの機械翻訳システム | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP2010519655A (ja) | 名前照合システムの名前インデックス付け | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
JP2018055670A (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
JP2006215717A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP4253483B2 (ja) | 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム | |
Ploch et al. | DAI Approaches to the TAC-KBP 2011 Entity Linking Task. | |
KR20200073524A (ko) | 특허 문서의 키프레이즈 추출 장치 및 방법 | |
US10042843B2 (en) | Method and system for searching words in documents written in a source language as transcript of words in an origin language | |
US20170220557A1 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
JP2004348514A (ja) | 対訳語抽出方法、対訳辞書構築方法及び翻訳メモリ構築方法 | |
Bessou et al. | An accuracy-enhanced stemming algorithm for Arabic information retrieval | |
Bessou et al. | An accuracy-enhanced stemming algorithm for Arabic information retrieval | |
KR20140049148A (ko) | 형태소 분할에 기반한 품사 태깅 방법 및 그 장치 | |
Liu et al. | Transfer building of multiword expression resource from Indonesian to Malay |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081021 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090120 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090126 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120130 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130130 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140130 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |