JP6221764B2 - 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム - Google Patents

読み推定装置、読み推定方法及び読み推定用コンピュータプログラム Download PDF

Info

Publication number
JP6221764B2
JP6221764B2 JP2014007666A JP2014007666A JP6221764B2 JP 6221764 B2 JP6221764 B2 JP 6221764B2 JP 2014007666 A JP2014007666 A JP 2014007666A JP 2014007666 A JP2014007666 A JP 2014007666A JP 6221764 B2 JP6221764 B2 JP 6221764B2
Authority
JP
Japan
Prior art keywords
word
candidate
reading
attribute
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014007666A
Other languages
English (en)
Other versions
JP2015138273A (ja
Inventor
村瀬 健太郎
健太郎 村瀬
片江 伸之
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014007666A priority Critical patent/JP6221764B2/ja
Publication of JP2015138273A publication Critical patent/JP2015138273A/ja
Application granted granted Critical
Publication of JP6221764B2 publication Critical patent/JP6221764B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、例えば、読みが未知な語の読みを推定する読み推定装置、読み推定方法及び読み推定用コンピュータプログラムに関する。
近年、音声合成技術及び音声認識技術が様々な用途で利用されている。音声合成技術及び音声認識技術では、入力されたテキストデータに含まれる単語の読みを特定するため、あるいは、入力された音声に含まれる単語を特定するために、一般に、単語とその読みが登録された辞書が利用される。このような辞書は、単語辞書と呼ばれることがある。そのため、辞書に登録されていない単語が、入力されたテキストデータまたは音声に含まれていると、その単語の読みが不明であるために、読みが誤った合成音声が生成されてしまったり、あるいは、その単語が認識されないことがある。そこで、辞書には、できるだけ多くの単語が登録されていることが好ましい。
一方、日常において生み出される造語、または町村合併等により新たに命名された市町村名など、年々、新たに生成される単語がある。そして辞書生成後に新たに生成された単語は、その辞書には登録されていないことがある。また、商品名といった、一般的でない単語も、既存の辞書には登録されていない可能性が高い。そこで、例えば、これらの未登録単語にも対応できるように、定期的、あるいは不定期的に、辞書を更新しようとすると、その更新作業は煩雑となる。また、辞書を最初に作成する際にも、辞書には例えば数十万個の単語を登録することになり、その作業量は膨大となる。
一方、Web上のテキストデータまたは業務用商品データベースなどには、辞書に未登録の単語の読みが表されていることがある。そこでこれらのデータを自動解析することで、未登録の単語の読みを特定できれば、辞書に単語を登録する作業が効率化できる。一方、テキスト情報に含まれる用語を解析する技術が提案されている(例えば、特許文献1を参照)。
例えば、特許文献1に開示された音声合成装置は、単語単位に分割されたテキスト情報から複合語を抽出し、複合語に含まれる複数の単語の意味情報を示す複合語意味情報に基づいて、抽出された複合語を分離する位置を決定する。
特開2004−102242号公報
しかし、特許文献1に記載の技術では、複合語に含まれる各単語が既知であることが前提となっている。そのため、複合語の一部に未知の単語が含まれていると、特許文献1に記載の技術は、複合語を適切に分離できないので、複合語全体の読みが既知であったとしても、複合語に含まれる未知の単語の読みを正確に特定できない。
そこで本明細書は、一つの側面として、読みが未知の語を含み、かつ、全体として読みが既知の複合語に基づいて、その未知の語の読みを推定できる読み推定装置を提供することを目的とする。
一つの実施形態によれば、読み推定装置が提供される。この読み推定装置は、第1の複合語及びその第1の複合語の読みを表すテキストデータを取得する入力部と、複数の単語及び複数の単語のそれぞれの属性が登録された属性付辞書を記憶する記憶部と、複数の単語のうち、第1の複合語の一部と一致する少なくとも一つの単語のそれぞれを第1の複合語から除くことで少なくとも一つの読みが未知の語の候補を検出し、かつ、その未知の語の候補ごとに、その候補を検出するために第1の複合語から除かれた単語の属性をその候補の属性とする候補検出部と、未知の語の候補のそれぞれについて、漢字仮名混じり文のテキストデータを含むコーパスから、その候補を含む第2の複合語を検出する候補含有複合語検索部と、未知の語の候補のそれぞれについて、その候補を含む第2の複合語のうちでその候補の属性と同じ属性の第2の複合語の出現頻度を算出する属性別頻度算出部と、未知の語の候補のうち、出現頻度が最も高い候補を未知語とし、第1の複合語の読みから未知語以外の部分の読みを除いた部分を未知語の読みと推定する読み推定部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された読み推定装置は、読みが未知の語を含み、かつ、全体として読みが既知の複合語に基づいて、その未知の語の読みを推定できる。
読みが未知の単語を含み、かつ、全体の読みが既知の複合語のリストの一例を示す図である。 第1の実施形態による辞書登録装置の概略構成図である。 処理部の機能ブロック図である。 対象複合語、属性付単語辞書に登録された単語及び未知語候補の関係の一例を示す図である。 未知語候補と検索用コーパスに含まれるテキストデータの関係の一例を示す図である。 読み推定処理の動作フローチャートである。 第2の実施形態による処理部の機能ブロック図である。 読み推定装置が実装されたサーバクライアントシステムの概略構成図である。
以下、図を参照しつつ、読み推定装置について説明する。
図1は、読みが未知の語(以下、便宜上、単に未知語と呼ぶ)を含み、かつ、全体の読みが既知の複合語のリストの一例を示す。リスト100には、三つの複合語「三山木駅」、「江津本町」、「串本町」及びその読み「みやまきえき」、「ごうつほんまち」、「くしもとちょう」が登録されている。ここで、単語「三山木」、「江津」及び「串本」が未知語であり、単語「町」と「本町」の読みが既知であるとする。この場合において、複合語「三山木駅」については、その複合語から既知の単語「駅」を取り除いた残りの部分の読みが、単語「三山木」の読みと推定される。一方、複合語「江津本町」については、「町」及び「本町」の何れも既知の単語なので、複合語「江津本町」から「町」を取り除いた残りの部分「江津本」が未知語なのか、「本町」を取り除いた残りの部分「江津」が未知語なのか単純には特定できない。そのため、独立した語としては使用されない文字列である「江津本」が誤って辞書に登録されてしまうおそれがある。例えば、あるWebサイト上に公開されているテキストデータには、複合語が数十万個ある。したがって、未知語以外の単語を一意に特定できないものが、それらの複合語のうちの数%であったとしても、未知語部分が一意に特定できない複合語の数は数千語にもなる。
そこで、例えば、複合語から既知の単語を取り除くことで得られる未知語の候補ごとに、様々なテキストデータ上での出現頻度を調べ、その出現頻度が最も高い候補を未知語と推定することが考えられる。例えば、上記の複合語「江津本町」に関して、未知語の候補「江津本」は本来意味の無い文字列なので、「江津本」の出現頻度よりも、地名を表す単語である「江津」の出現頻度の方が高くなる。そのため、複合語「江津本町」に含まれる未知語は「江津」であると推定される。
しかし、複合語「串本町」については、その複合語から既知の単語「町」及び「本町」をそれぞれ取り除いて得られる未知語の候補「串本」及び「串」の何れも、意味の有る単語である。そのため、未知語の候補「串本」の出現頻度と未知語の候補「串」の出現頻度の何れも高く、複合語「串本町」に含まれる未知語が特定できないおそれがある。
ここで、発明者は、未知語は、その未知語とともに複合語を形成している他の単語の属性と同じ属性の単語とともに利用されることが多いことに着目した。例えば、「串本」は、地名の属性を持つ「町」だけでなく、同じく地名の属性を持つ「駅」、「温泉」などとともに複合語を形成することがある。
そこで、この読み推定装置は、未知語を含む対象複合語から、既知の1以上の単語をそれぞれ取り除くことで、1以上の未知語の候補を求める。そしてこの読み推定装置は、未知語の候補ごとに、検索用コーパスに含まれる様々なテキストデータについて、その候補を決定する際に対象複合語から取り除いた単語の属性と同じ属性を持つ単語をその候補に結合して得られる複合語の出現頻度を求める。そしてこの読み推定装置は、未知語の候補のうちで、その出現頻度が最も高い候補を未知語として推定し、対象複合語の読みから、未知語以外の単語に相当する読みを取り除いて得られる部分を、その未知語の読みと推定する。なお、本実施形態では、未知語は単語であってもよく、あるいは、二つ以上の単語が結合された複合語であってもよい。
図2は、読み推定装置の一例である、第1の実施形態による辞書登録装置の概略構成図である。本実施形態では、辞書登録装置1は、入力部2と、記憶部3と、通信部4と、処理部5とを有する。入力部2、記憶部3及び通信部4は、処理部5とバスを介して接続されている。
入力部2は、未知語を含む対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータを取得する。なお、対象複合語の表記は、例えば、漢字と仮名の組み合わせ、または漢字のみで表記され、一方、対象複合語の読みは、例えば、仮名で表記される。そのために、入力部2は、例えば、キーボードを有する。また、入力部2は、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータを通信ネットワークを介して辞書登録装置1と接続された他の機器から取得してもよい。この場合、入力部2は、辞書登録装置1を通信ネットワークに接続するためのインターフェース回路を有する。さらに、入力部2は、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータが記録された磁気記録媒体あるいは光記録媒体といった記録媒体から読み込んでもよい。この場合には、入力部2は、そのような記録媒体のアクセス装置であってもよい。なお、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータは、どのようなファイル形式で表されていてもよい。
入力部2は、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータを処理部5へ渡す。
記憶部3は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部3は、処理部5で用いられる各種コンピュータプログラム、及び辞書登録処理に用いられる各種のデータを記憶する。例えば、記憶部3は、様々な単語の漢字仮名表記と各単語の読み及び属性が登録された属性付単語辞書を記憶する。なお、本実施形態における単語の属性とは、その単語が他の単語と複合語を形成した際の他の単語の意味などを表す属性であり、例えば、地名、姓、普通名詞などである。例えば、属性が地名である単語には、「町」、「本町」、「温泉」、「支所」、「駅」、「高校」など、地名の単語と複合語を形成する頻度が高い単語が含まれる。また、属性が姓である単語には、「様」、「殿」、「家」など、姓を表す単語と複合語を形成する頻度が高い単語が含まれる。そして属性が普通名詞である単語には、「料理」、「駒」、「車」など、特定の属性の単語と複合語を形成する頻度が突出して高くなることはない単語が含まれる。
また記憶部3は、未知語の候補を含む複合語である候補含有複合語の検索に利用されるテキストデータの集合である検索用コーパスを記憶していてもよい。さらに、記憶部3は、未知語の表記及び読みを登録すべき辞書を記憶していてもよい。未知語の表記及び読みが登録される辞書は、例えば、音声合成または音声認識において使用される単語辞書である。
通信部4は、検索用コーパスを、通信ネットワークに接続された他の機器から取得する。そのために、通信部4は、通信ネットワークに辞書登録装置1を接続するためのインターフェース回路を有する。
また通信部4は、処理部5から受け取った未知語の表記を表すテキストデータ及び未知語の読みを表すテキストデータを、その未知語が登録される辞書を記憶した装置へ通信ネットワークを介して出力する。なお、入力部2も通信ネットワークを介して対象複合語のテキストデータを取得する場合、入力部2と通信部4は一体化されていてもよい。
処理部5は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部5は、対象複合語に含まれる未知語及びその未知語の読みを推定する。
図3は、処理部5の機能ブロック図である。処理部5は、候補検出部11と、候補含有複合語検索部12と、属性別頻度算出部13と、読み推定部14と、登録部15とを有する。
処理部5が有するこれらの各部は、例えば、処理部5が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部5が有するこれらの各部は、その各部の機能を実現する一つの集積回路として辞書登録装置1に実装されてもよい。
候補検出部11は、属性付単語辞書に登録された単語ごとに、入力された対象複合語の一部と一致するか否か判定する。そして候補検出部11は、その単語が、対象複合語の一部と一致する場合、その対象複合語からその単語と一致する部分を除いた残りの部分を未知語候補とする。複数の未知語候補が検出される場合、それらの未知語候補は、対象複合語の互いに異なる部分に対応する。ただし、複数の未知語同士の一部が重なっていたり、一方の未知語全体が他方の未知語に含まれることはある。また候補検出部11は、対象複合語全体の読みから、属性付単語辞書に登録された単語と一致した部分に相当する読みを除いた残りの部分を未知語候補の読みとする。なお、属性付単語辞書に登録された単語と一致するか否かが調べられる複合語の一部は、複合語の末尾の単語、すなわち、接尾語であってもよい。
また候補検出部11は、未知語候補ごとに、その未知語候補を決定するために、対象複合語から除かれた単語の属性を、その未知語候補の属性とする。そして候補検出部11は、未知語候補ごとに、その未知語の表記及び属性を、候補含有複合語検索部12及び属性別頻度算出部13へ通知する。
図4は、対象複合語、属性付単語辞書に登録された単語及び未知語候補の関係の一例を示す図である。
この例では、対象複合語400として、「串本町」及びその読み「くしもとちょう」が入力される。一方、属性付単語辞書401には、他の単語と複合語を形成した際に、他の単語の属性が地名である頻度が高い単語「町」及び「本町」が登録されている。この場合、複合語「串本町」から単語「町」を除いた残りの部分である「串本」及び複合語「串本町」から単語「本町」を除いた残りの部分である「串」が、それぞれ、未知語候補402、403となる。この場合、未知語候補「串本」及びその属性「地名」が一つの組として候補含有複合語検索部12及び属性別頻度算出部13に通知される。また、未知語候補「串」及びその属性「地名」が他の一つの組として候補含有複合語検索部12及び属性別頻度算出部13に通知される。
候補含有複合語検索部12は、未知語候補ごとに、検索用コーパスの中から、その未知語候補を含む複合語である候補含有複合語を検索する。
なお、候補含有複合語検索部12は、検索用コーパスとして、例えば、辞書登録装置1と通信ネットワークを介して接続されている様々なWebサイト上で公開されているWebページに含まれる、漢字仮名混じり文のテキストデータを利用できる。あるいは、候補含有複合語検索部12は、検索用コーパスとして、例えば、製品のマニュアル、議事録、メールなどに含まれる漢字仮名混じり文のテキストデータを利用できる。
候補含有複合語検索部12は、例えば、検索用コーパスに含まれるテキストデータの中から、未知語候補と一致する文字列を検出する。そして候補含有複合語検索部12は、検出した文字列の前または後に連続して漢字がある場合、その検出した文字列及びその文字列と連続する漢字を全て含む文字列を、候補含有複合語とする。
あるいは、候補含有複合語検索部12は、連続する複数の漢字を含み、かつ、その前後の文字が漢字でない文字列を候補含有複合語の候補として検出してもよい。そして候補含有複合語検索部12は、候補含有複合語の候補の一部と何れかの未知語候補が一致する場合、その候補含有複合語の候補を候補含有複合語としてもよい。
なお、未知語候補が、対象複合語から接尾語を除くことによって生成されている場合、候補含有複合語検索部12は、未知語候補の後に漢字が続く文字列のみを候補含有複合語としてもよい。
図5は、未知語候補と検索用コーパスに含まれるテキストデータの関係の一例を示す図である。検索用コーパス500に含まれるテキストデータ501には、対象複合語「串本町」に含まれる未知語候補「串本」を含む二つの複合語「串本温泉」、「串本支所」が含まれている。そこでこれらの複合語が、候補含有複合語502、503として検出される。また、検索用コーパス500に含まれるテキストデータ511には、対象複合語「串本町」に含まれる未知語候補「串」を含む二つの複合語「串揚げ」、「串料理」が含まれている。そこでこれらの複合語が、候補含有複合語512、513として検出される。
候補含有複合語検索部12は、未知語候補ごとに、検出された候補含有複合語を属性別頻度算出部13へ通知する。
属性別頻度算出部13は、未知語候補ごとに、未知語候補の属性と同じ属性を持つ候補含有複合語の出現頻度を算出する。そのために、先ず、属性別頻度算出部13は、各候補含有複合語の属性を決定する。
例えば、属性別頻度算出部13は、候補含有複合語から、その候補含有複合語に含まれる未知語候補を除いた部分と一致する単語が属性付単語辞書に登録されているか否か判定する。そしてその単語が属性付単語辞書に登録されている場合、属性別頻度算出部13は、その単語の属性を、候補含有複合語の属性とする。一方、候補含有複合語に含まれる未知語候補を除いた部分と一致する単語が属性付単語辞書に登録されていない場合、属性別頻度算出部13は、その候補含有複合語の属性は無いと判定する。
例えば、図5に示されるように、未知語候補「串」を含む候補含有複合語として「串揚げ」、「串料理」が検索用コーパスから検出されたとする。そして、図4に示されるように、属性付単語辞書に、属性が普通名詞である単語「料理」が登録されており、一方、単語「揚げ」は属性付単語辞書に登録されていないとする。この場合、属性別頻度算出部13は、候補含有複合語「串揚げ」の属性は無し、候補含有複合語「串料理」の属性は普通名詞と判定する。
また、図5に示されるように、未知語候補「串本」を含む候補含有複合語として「串本温泉」、「串本支所」が検索用コーパスから検出されたとする。そして、図4に示されるように、属性付単語辞書に、属性が地名である単語「温泉」、「支所」が登録されているとする。この場合、属性別頻度算出部13は、候補含有複合語「串本温泉」、「串本支所」の属性をともに地名と判定する。
属性別頻度算出部13は、未知語候補ごとに、その未知語候補の属性と同じ属性を持つ候補含有複合語の出現頻度を算出する。以下では、この出現頻度を、説明の便宜上、同一属性出現頻度と呼ぶ。そして属性別頻度算出部13は、未知語候補ごとの同一属性出現頻度を読み推定部14に通知する。
例えば、図4及び図5に示された例では、未知語候補「串」及び「串本」の何れの属性も地名である。したがって、属性別頻度算出部13は、未知語候補「串」を含む候補含有複合語のうち、属性が地名である候補含有複合語の出現頻度を同一属性出現頻度として算出する。同様に、属性別頻度算出部13は、未知語候補「串本」を含む候補含有複合語のうち、属性が地名である候補含有複合語の出現頻度を同一属性出現頻度として算出する。
例えば、図5に示されるように、属性が地名である未知語候補「串」を含む候補含有複合語として「串揚げ」、「串料理」が検出されているとする。この場合、その二つの候補含有複合語の属性は何れも地名でないので、未知語候補「串」を含む候補含有複合語の同一属性出現頻度は0となる。一方、属性が地名である未知語候補「串本」を含む候補含有複合語として「串本温泉」、「串本支所」が検出されている場合、その二つの候補含有複合語の属性は何れも地名である。したがって、未知語候補「串本」を含む候補含有複合語の同一属性出現頻度は2となる。
読み推定部14は、各未知語候補の同一属性出現頻度のうちで最も頻度が高い未知語候補を、入力された複合語に含まれる未知語と推定する。そして読み推定部14は、対象複合語の読みから未知語以外の部分の読みを除いた残りの部分の読みを、未知語の読みと推定する。
例えば、上記の例では、未知語候補「串」の同属性出現頻度は0であり、一方、「串本」の同属性出現頻度は2である。したがって、読み推定部14は、未知語候補「串本」を未知語と推定し、その読み「くしもと」を推定された未知語の読みとする。
読み推定部14は、推定された未知語の表記及び読みを表すテキストデータを生成し、そのテキストデータを登録部15に渡す。
登録部15は、推定された未知語の表記及び読みを表すテキストデータを通信部4を介して登録対象辞書が格納された機器へ出力する。あるいは、登録対象辞書が記憶部3に記憶されている場合、読み推定部14は、推定された未知語の表記及び読みをその登録対象辞書に登録する。
図6は、辞書登録装置1の処理部5によって実行される読み推定処理の動作フローチャートである。処理部5は、入力部2を介して未知語を含む対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータを取得する度に、以下の動作フローチャートに従って、その対象複合語に含まれる未知語及びその読みを推定する。
候補検出部11は、属性付単語辞書に登録された単語のうちで対象複合語の一部と一致するものを対象複合語から除くことで一つ以上の未知語候補を検出する(ステップS101)。また候補検出部11は、未知語候補ごとに、その未知語候補を決定するために入力された対象複合語から除かれた単語の属性を、その未知語候補の属性とする(ステップS102)。
候補含有複合語検索部12は、未知語候補ごとに、検索用コーパスの中から、その未知語候補を含む複合語である候補含有複合語を検索する(ステップS103)。
属性別頻度算出部13は、各候補含有複合語に含まれる、未知語候補以外の単語の属性に基づいて、その候補含有複合語の属性を決定する(ステップS104)。そして属性別頻度算出部13は、未知語候補ごとに、その未知語候補の属性と同じ属性を持つ候補含有複合語の出現頻度を同一属性出現頻度として算出する(ステップS105)。
読み推定部14は、各未知語候補の同一属性出現頻度のうちで最も頻度が高い未知語候補を、入力された複合語に含まれる未知語と推定する。読み推定部14は、対象複合語全体の読みから推定された未知語以外の部分の読みを除いたものを、推定された未知語の読みとする(ステップS106)。登録部15は、推定された未知語の表記及びその読みを辞書に登録する(ステップS107)。そして処理部5は、未知語推定処理を終了する。
以上に説明してきたように、この辞書登録装置は、未知語を含む対象複合語から属性付辞書に登録された単語を除いた部分を未知語候補として検出するとともに、その単語の属性を未知語候補の属性とする。この辞書登録装置は、検索用コーパスから検出された、未知語候補を含む候補含有複合語のうち、未知語候補の属性と同じ属性を持つ候補含有複合語の同属性出現頻度を算出する。そしてこの辞書登録装置は、同属性頻度が最も高い未知語候補及びその読みを、未知語及びその読みと推定する。このように、この辞書登録装置は、未知語候補の属性と同じ属性の複合語の出現頻度に応じて未知語を推定するので、正確に未知語を推定できる。
次に、第2の実施形態による辞書登録装置について説明する。第2の実施形態による辞書登録装置は、未知語及びその読みを推定するために、1以上の文または文節を表すテキストデータを取得する。この辞書登録装置は、そのテキストデータから、複数の漢字が連結された文字列のうち、その文字列の一部のみが属性付単語辞書に登録された単語と一致する文字列を、未知語を含む複合語として検出する。そしてこの辞書登録装置は、検出した複合語に対して、第1の実施形態による辞書登録装置と同様の処理を実行して、未知語及び未知語の読みを推定する。
図7は、第2の実施形態による辞書登録装置の処理部の機能ブロック図である。処理部5は、未知語含有複合語検出部16と、候補検出部11と、候補含有複合語検索部12と、属性別頻度算出部13と、読み推定部14と、登録部15とを有する。
第2の実施形態による辞書登録装置は、第1の実施形態による辞書登録装置と比較して、処理部5が未知語含有複合語検出部16を有する点で異なる。そこで以下では、未知語含有複合語検出部16及びその関連部分について説明する。第2の実施形態による辞書登録装置のその他の構成要素については、第1の実施形態による辞書登録装置の対応する構成要素の説明を参照されたい。
未知語含有複合語検出部16は、入力部2を介して入力されたテキストデータから、未知語を含む複合語を検出する。ここで、未知語を含む複合語が検出されるテキストデータは、漢字仮名混じり文とそのフリガナが含まれるテキストデータであればよい。例えば、未知語を含む複合語が検出されるテキストデータは、様々なWebサイト上で公開されているWebページに含まれるテキストデータのうちの、漢字仮名混じり文及びそのフリガナを含む部分とすることができる。あるいは、未知語を含む複合語が検出されるテキストデータは、商品のカタログ、従業員情報のデータベースあるいは電子商取引の受発注履歴といった、データベースまたは表に含まれるテキストデータであってもよい。
なお、未知語を含む複合語の検出対象となるテキストデータは、候補含有複合語に用いられる検索用コーパスの一部であってもよく、あるいは、検索用コーパスとは別個に用意されたものであってもよい。
未知語含有複合語検出部16は、入力されたテキストデータから、連続する複数の漢字を含み、かつ、その前後の文字が漢字でない文字列を複合語の候補として検出する。そして未知語含有複合語検出部16は、検出した複合語の候補のうち、その複合語を表す文字列の一部のみが、属性付単語辞書に登録された単語の何れかと一致する候補を、未知語を含む複合語とする。
未知語含有複合語検出部16は、検出された複合語のそれぞれについて、その複合語の漢字仮名表記と、その複合語のフリガナ、すなわち、その複合語の読みを、候補検出部11へ渡す。
候補検出部11、候補含有複合語検索部12、属性別頻度算出部13、読み推定部14及び登録部15は、抽出された各複合語に対して第1の実施形態と同様の処理を行って、未知語及びその読みを推定し、辞書に未知語及びその読みを登録する。
第2の実施形態による辞書登録装置は、テキストデータから自動的に未知語を含む複合語を検出するので、より簡易な操作で未知語及びその読みを推定できる。特に、定期的、あるいは不定期的に、予め設定されたWebページなどからテキストデータを入力するように設定することで、この辞書登録装置は、辞書に未知語及びその読みを追加登録する作業をより簡単化できる。
なお、変形例によれば、属性別頻度算出部13は、未知語候補ごとに、その未知語候補の属性と同じ属性を持つ候補含有複合語の出現頻度だけでなく、未知語候補の属性と異なる属性を持つ候補含有複合語についても、属性ごとの出現頻度を算出してもよい。そして属性別頻度算出部13は、各未知語候補について、属性ごとの候補含有複合語の出現頻度を読み推定部14に通知してもよい。
読み推定部14は、未知語候補のうち、その未知語候補の属性と同じ属性を持つ候補含有複合語の出現頻度がその未知語候補の属性と異なる属性を持つ候補含有複合語の出現頻度よりも高い未知語候補のなかから、未知語を推定してもよい。
また、各実施形態またはその変形例による読み推定装置は、サーバクライアントシステムに実装されてもよい。
図8は、読み推定装置が実装されたサーバクライアントシステムの概略構成図である。サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
端末110は、入力部111と、記憶部112と、通信部113と、制御部114とを有する。入力部111、記憶部112及び通信部113は、制御部114とバスを介して接続されている。
入力部111は、例えば、キーボードを有し、未知語を含む対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータを取得する。
記憶部112は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部112は、端末110を制御するためのコンピュータプログラム、端末110の識別情報、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータなどを記憶する。
また記憶部112は、未知語及びその読みの登録対象となる辞書を記憶していてもよい。
通信部113は、端末110を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部113は、制御部114から受け取ったテキストデータを通信ネットワーク130を介してサーバ120へ送信する。また通信部113は、未知語を含む複合語の抽出対象となるテキストデータを、通信ネットワーク130に接続された他の装置140、例えば、Webサーバから受信し、制御部114に渡してもよい。
さらに、通信部113は、サーバ120から未知語及びその読みを表すテキストデータを受信して、制御部114に渡す。
制御部114は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部114は、上記の各実施形態または変形例による処理部の各機能のうち、未知語含有複合語検出部16及び登録部15の機能を実現する。すなわち、制御部114は、未知語を含む複合語の抽出対象となるテキストデータから、未知語を含む複合語を抽出し、その複合語及びその読みを表すテキストデータを作成する。そして制御部114は、そのテキストデータを端末110の識別情報とともに、通信部113及び通信ネットワーク130を介してサーバ120へ送信する。
また制御部114は、サーバ120から通信ネットワーク130及び通信部113を介して受信した、未知語及びその読みを表すテキストデータに基づいて、未知語及びその読みを辞書に登録する。
サーバ120は、通信部121と、記憶部122と、処理部123とを有する。通信部121及び記憶部122は、処理部123とバスを介して接続されている。
通信部121は、サーバ120を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部121は、未知語を含む複合語及びその複合語全体の読みを表すテキストデータと端末110の識別情報とを端末110から通信ネットワーク130を介して受信して処理部123に渡す。また通信部121は、端末110の識別情報に基づいて、処理部123から受け取った未知語及びその読みを含むテキストデータを通信ネットワーク130を介して端末110へ送信する。
さらに、通信部121は、通信ネットワーク130に接続された他の装置140から検索用コーパスを受信し、処理部123に渡してもよい。なお、検索用コーパスを記憶する装置は、未知語を含む複合語の抽出対象となるテキストデータが記憶されている装置とは別個の装置であってもよい。
記憶部122は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部122は、サーバ120を制御するためのコンピュータプログラム、属性付単語辞書などを記憶する。また記憶部122は、検索用コーパスを記憶していてもよい。
処理部123は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部123は、上記の各実施形態または変形例による処理部の各機能のうち、候補検出部11、候補含有複合語検索部12、属性別頻度算出部13及び読み推定部14の機能を実現する。すなわち、処理部123は、端末110から受信した、未知語を含む複合語及びその読みを表すテキストデータから、未知語及びその読みを推定する。そして処理部123は、未知語及びその読みを表すテキストデータを作成し、そのテキストデータを、通信部121及び通信ネットワーク130を介して端末110へ送信する。
この実施形態によれば、個々の端末110は、未知語を含む複合語及びその複合語全体の読みを表すテキストデータを作成してサーバ120へ送信するだけで、その複合語に含まれる未知語及びその読みを得ることができる。そのため、個々の端末110は、属性付単語辞書及び検索用コーパスを記憶する必要が無い。
さらに、上記の各実施形態による辞書登録装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体、例えば、磁気記録媒体、光記録媒体または半導体メモリに記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
1 辞書登録装置(読み推定装置)
2 入力部
3 記憶部
4 通信部
5 処理部
11 候補検出部
12 候補含有複合語検索部
13 属性別頻度算出部
14 読み推定部
15 登録部
16 未知語含有複合語検出部
100 サーバクライアントシステム
110 端末
120 サーバ
130 通信ネットワーク
111 入力部
112 記憶部
113 通信部
114 制御部
121 通信部
122 記憶部
123 処理部

Claims (5)

  1. 第1の複合語及び該第1の複合語の読みを表すテキストデータを取得する入力部と、
    複数の単語及び該複数の単語のそれぞれの属性が登録された属性付辞書を記憶する記憶部と、
    前記複数の単語のうち、前記第1の複合語の一部と一致する少なくとも一つの単語のそれぞれを前記第1の複合語から除くことで少なくとも一つの読みが未知の語の候補を検出し、かつ、前記候補ごとに、前記候補を検出するために前記第1の複合語から除かれた単語の属性を前記候補の属性とする候補検出部と、
    前記候補のそれぞれについて、漢字仮名混じり文のテキストデータを含むコーパスから、当該候補を含む第2の複合語を検出する候補含有複合語検索部と、
    前記候補のそれぞれについて、当該候補を含む前記第2の複合語のうちで当該候補の属性と同じ属性の第2の複合語の出現頻度を算出する属性別頻度算出部と、
    前記候補のうち、前記出現頻度が最も高い候補を未知語とし、前記第1の複合語の読みから前記未知語以外の部分の読みを除いた部分を前記未知語の読みと推定する読み推定部と、
    を有する読み推定装置。
  2. 前記属性別頻度算出部は、前記第2の複合語に含まれる前記候補を除いた部分と一致する前記属性付辞書に登録された単語を検出し、該検出された単語の属性を前記第2の複合語の属性とする、請求項1に記載の読み推定装置。
  3. 漢字仮名混じり文及び該漢字仮名混じり文の読みを表すテキストデータから、複数の漢字が連続する文字列を検出し、該検出された文字列のうち、当該文字列の一部に前記属性付辞書に登録された何れの単語とも一致しない文字を含む文字列を前記第1の複合語として検出する未知語含有複合語検出部をさらに有する、請求項1または2に記載の読み推定装置。
  4. 第1の複合語及び該第1の複合語の読みを表すテキストデータを取得し、
    処理部が、記憶部に記憶された属性付辞書に属性とともに登録された複数の単語のうち、前記第1の複合語の一部と一致する少なくとも一つの単語のそれぞれを前記第1の複合語から除くことで少なくとも一つの読みが未知の語の候補を検出し、かつ、前記候補ごとに、前記候補を検出するために前記第1の複合語から除かれた単語の属性を前記候補の属性とし、
    前記処理部が、前記候補のそれぞれについて、漢字仮名混じり文のテキストデータを含むコーパスから、前記候補を含む第2の複合語を検出し、
    前記処理部が、前記候補のそれぞれについて、当該候補を含む前記第2の複合語のうちで当該候補の属性と同じ属性の第2の複合語の出現頻度を算出し、
    前記処理部が、前記候補のうち、前記出現頻度が最も高い候補を未知語とし、前記第1の複合語の読みから前記未知語以外の部分の読みを除いた部分を前記未知語の読みと推定する、
    ことを含む読み推定方法。
  5. 第1の複合語及び該第1の複合語の読みを表すテキストデータを取得し、
    記憶部に記憶された属性付辞書に属性とともに登録された複数の単語のうち、前記第1の複合語の一部と一致する少なくとも一つの単語のそれぞれを前記第1の複合語から除くことで少なくとも一つの読みが未知の語の候補を検出し、かつ、前記候補ごとに、前記候補を検出するために前記第1の複合語から除かれた単語の属性を前記候補の属性とし、
    前記候補のそれぞれについて、漢字仮名混じり文のテキストデータを含むコーパスから、前記候補を含む第2の複合語を検出し、
    前記候補のそれぞれについて、当該候補を含む前記第2の複合語のうちで当該候補の属性と同じ属性の第2の複合語の出現頻度を算出し、
    前記候補のうち、前記出現頻度が最も高い候補を未知語とし、前記第1の複合語の読みから前記未知語以外の部分の読みを除いた部分を前記未知語の読みと推定する、
    ことをコンピュータに実行させるための読み推定用コンピュータプログラム。
JP2014007666A 2014-01-20 2014-01-20 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム Expired - Fee Related JP6221764B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014007666A JP6221764B2 (ja) 2014-01-20 2014-01-20 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014007666A JP6221764B2 (ja) 2014-01-20 2014-01-20 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015138273A JP2015138273A (ja) 2015-07-30
JP6221764B2 true JP6221764B2 (ja) 2017-11-01

Family

ID=53769266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014007666A Expired - Fee Related JP6221764B2 (ja) 2014-01-20 2014-01-20 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6221764B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3470927B2 (ja) * 1995-05-11 2003-11-25 日本電信電話株式会社 自然語解析方法及び装置
JP3573889B2 (ja) * 1996-11-14 2004-10-06 株式会社リコー 音声出力装置
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
JP2010097239A (ja) * 2008-10-14 2010-04-30 Nec Corp 辞書作成装置、辞書作成方法、および辞書作成プログラム

Also Published As

Publication number Publication date
JP2015138273A (ja) 2015-07-30

Similar Documents

Publication Publication Date Title
CN110569328B (zh) 实体链接方法、电子装置及计算机设备
JP5078173B2 (ja) 多義性解消方法とそのシステム
US11397855B2 (en) Data standardization rules generation
KR20160124742A (ko) 비정형 텍스트내의 특징들의 중의성을 해소하는 방법
CN111694823A (zh) 机构标准化方法、装置、电子设备及存储介质
CN102314452B (zh) 一种通过输入法平台进行导航的方法及系统
EP3699780A1 (en) Method and apparatus for recommending entity, electronic device and computer readable medium
US10055408B2 (en) Method of extracting an important keyword and server performing the same
Wu et al. Searching services" on the web": A public web services discovery approach
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
JP2009110508A (ja) オブジェクト間の競合指標計算方法およびシステム
JP2008242626A (ja) 用語登録装置
JP6476886B2 (ja) キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
Charton et al. Improving Entity Linking using Surface Form Refinement.
JP6221764B2 (ja) 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム
US9336317B2 (en) System and method for searching aliases associated with an entity
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
US10606875B2 (en) Search support apparatus and method
US20160283605A1 (en) Information extraction device, information extraction method, and display control system
JP2021086362A (ja) 情報処理装置、情報処理方法及びプログラム
JP5187187B2 (ja) 体験情報検索システム
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体
KR101671892B1 (ko) Uri 정의문 및 부가정보 기반 텍스트에서 개체의 uri를 식별하는 장치, 토픽 분포 추정 방법 및 uri 선택 방법
Lin et al. Automatic Dish Name Extraction from User-generated Content Using LLM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170918

R150 Certificate of patent or registration of utility model

Ref document number: 6221764

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees