JP6221764B2 - 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム - Google Patents
読み推定装置、読み推定方法及び読み推定用コンピュータプログラム Download PDFInfo
- Publication number
- JP6221764B2 JP6221764B2 JP2014007666A JP2014007666A JP6221764B2 JP 6221764 B2 JP6221764 B2 JP 6221764B2 JP 2014007666 A JP2014007666 A JP 2014007666A JP 2014007666 A JP2014007666 A JP 2014007666A JP 6221764 B2 JP6221764 B2 JP 6221764B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- candidate
- reading
- attribute
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
図1は、読みが未知の語(以下、便宜上、単に未知語と呼ぶ)を含み、かつ、全体の読みが既知の複合語のリストの一例を示す。リスト100には、三つの複合語「三山木駅」、「江津本町」、「串本町」及びその読み「みやまきえき」、「ごうつほんまち」、「くしもとちょう」が登録されている。ここで、単語「三山木」、「江津」及び「串本」が未知語であり、単語「町」と「本町」の読みが既知であるとする。この場合において、複合語「三山木駅」については、その複合語から既知の単語「駅」を取り除いた残りの部分の読みが、単語「三山木」の読みと推定される。一方、複合語「江津本町」については、「町」及び「本町」の何れも既知の単語なので、複合語「江津本町」から「町」を取り除いた残りの部分「江津本」が未知語なのか、「本町」を取り除いた残りの部分「江津」が未知語なのか単純には特定できない。そのため、独立した語としては使用されない文字列である「江津本」が誤って辞書に登録されてしまうおそれがある。例えば、あるWebサイト上に公開されているテキストデータには、複合語が数十万個ある。したがって、未知語以外の単語を一意に特定できないものが、それらの複合語のうちの数%であったとしても、未知語部分が一意に特定できない複合語の数は数千語にもなる。
ここで、発明者は、未知語は、その未知語とともに複合語を形成している他の単語の属性と同じ属性の単語とともに利用されることが多いことに着目した。例えば、「串本」は、地名の属性を持つ「町」だけでなく、同じく地名の属性を持つ「駅」、「温泉」などとともに複合語を形成することがある。
入力部2は、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータを処理部5へ渡す。
また通信部4は、処理部5から受け取った未知語の表記を表すテキストデータ及び未知語の読みを表すテキストデータを、その未知語が登録される辞書を記憶した装置へ通信ネットワークを介して出力する。なお、入力部2も通信ネットワークを介して対象複合語のテキストデータを取得する場合、入力部2と通信部4は一体化されていてもよい。
図3は、処理部5の機能ブロック図である。処理部5は、候補検出部11と、候補含有複合語検索部12と、属性別頻度算出部13と、読み推定部14と、登録部15とを有する。
処理部5が有するこれらの各部は、例えば、処理部5が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部5が有するこれらの各部は、その各部の機能を実現する一つの集積回路として辞書登録装置1に実装されてもよい。
この例では、対象複合語400として、「串本町」及びその読み「くしもとちょう」が入力される。一方、属性付単語辞書401には、他の単語と複合語を形成した際に、他の単語の属性が地名である頻度が高い単語「町」及び「本町」が登録されている。この場合、複合語「串本町」から単語「町」を除いた残りの部分である「串本」及び複合語「串本町」から単語「本町」を除いた残りの部分である「串」が、それぞれ、未知語候補402、403となる。この場合、未知語候補「串本」及びその属性「地名」が一つの組として候補含有複合語検索部12及び属性別頻度算出部13に通知される。また、未知語候補「串」及びその属性「地名」が他の一つの組として候補含有複合語検索部12及び属性別頻度算出部13に通知される。
例えば、属性別頻度算出部13は、候補含有複合語から、その候補含有複合語に含まれる未知語候補を除いた部分と一致する単語が属性付単語辞書に登録されているか否か判定する。そしてその単語が属性付単語辞書に登録されている場合、属性別頻度算出部13は、その単語の属性を、候補含有複合語の属性とする。一方、候補含有複合語に含まれる未知語候補を除いた部分と一致する単語が属性付単語辞書に登録されていない場合、属性別頻度算出部13は、その候補含有複合語の属性は無いと判定する。
また、図5に示されるように、未知語候補「串本」を含む候補含有複合語として「串本温泉」、「串本支所」が検索用コーパスから検出されたとする。そして、図4に示されるように、属性付単語辞書に、属性が地名である単語「温泉」、「支所」が登録されているとする。この場合、属性別頻度算出部13は、候補含有複合語「串本温泉」、「串本支所」の属性をともに地名と判定する。
例えば、図5に示されるように、属性が地名である未知語候補「串」を含む候補含有複合語として「串揚げ」、「串料理」が検出されているとする。この場合、その二つの候補含有複合語の属性は何れも地名でないので、未知語候補「串」を含む候補含有複合語の同一属性出現頻度は0となる。一方、属性が地名である未知語候補「串本」を含む候補含有複合語として「串本温泉」、「串本支所」が検出されている場合、その二つの候補含有複合語の属性は何れも地名である。したがって、未知語候補「串本」を含む候補含有複合語の同一属性出現頻度は2となる。
例えば、上記の例では、未知語候補「串」の同属性出現頻度は0であり、一方、「串本」の同属性出現頻度は2である。したがって、読み推定部14は、未知語候補「串本」を未知語と推定し、その読み「くしもと」を推定された未知語の読みとする。
第2の実施形態による辞書登録装置は、第1の実施形態による辞書登録装置と比較して、処理部5が未知語含有複合語検出部16を有する点で異なる。そこで以下では、未知語含有複合語検出部16及びその関連部分について説明する。第2の実施形態による辞書登録装置のその他の構成要素については、第1の実施形態による辞書登録装置の対応する構成要素の説明を参照されたい。
なお、未知語を含む複合語の検出対象となるテキストデータは、候補含有複合語に用いられる検索用コーパスの一部であってもよく、あるいは、検索用コーパスとは別個に用意されたものであってもよい。
未知語含有複合語検出部16は、検出された複合語のそれぞれについて、その複合語の漢字仮名表記と、その複合語のフリガナ、すなわち、その複合語の読みを、候補検出部11へ渡す。
候補検出部11、候補含有複合語検索部12、属性別頻度算出部13、読み推定部14及び登録部15は、抽出された各複合語に対して第1の実施形態と同様の処理を行って、未知語及びその読みを推定し、辞書に未知語及びその読みを登録する。
読み推定部14は、未知語候補のうち、その未知語候補の属性と同じ属性を持つ候補含有複合語の出現頻度がその未知語候補の属性と異なる属性を持つ候補含有複合語の出現頻度よりも高い未知語候補のなかから、未知語を推定してもよい。
図8は、読み推定装置が実装されたサーバクライアントシステムの概略構成図である。サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
記憶部112は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部112は、端末110を制御するためのコンピュータプログラム、端末110の識別情報、対象複合語の表記を表すテキストデータとその対象複合語全体の読みを表すテキストデータなどを記憶する。
また記憶部112は、未知語及びその読みの登録対象となる辞書を記憶していてもよい。
さらに、通信部113は、サーバ120から未知語及びその読みを表すテキストデータを受信して、制御部114に渡す。
また制御部114は、サーバ120から通信ネットワーク130及び通信部113を介して受信した、未知語及びその読みを表すテキストデータに基づいて、未知語及びその読みを辞書に登録する。
さらに、通信部121は、通信ネットワーク130に接続された他の装置140から検索用コーパスを受信し、処理部123に渡してもよい。なお、検索用コーパスを記憶する装置は、未知語を含む複合語の抽出対象となるテキストデータが記憶されている装置とは別個の装置であってもよい。
2 入力部
3 記憶部
4 通信部
5 処理部
11 候補検出部
12 候補含有複合語検索部
13 属性別頻度算出部
14 読み推定部
15 登録部
16 未知語含有複合語検出部
100 サーバクライアントシステム
110 端末
120 サーバ
130 通信ネットワーク
111 入力部
112 記憶部
113 通信部
114 制御部
121 通信部
122 記憶部
123 処理部
Claims (5)
- 第1の複合語及び該第1の複合語の読みを表すテキストデータを取得する入力部と、
複数の単語及び該複数の単語のそれぞれの属性が登録された属性付辞書を記憶する記憶部と、
前記複数の単語のうち、前記第1の複合語の一部と一致する少なくとも一つの単語のそれぞれを前記第1の複合語から除くことで少なくとも一つの読みが未知の語の候補を検出し、かつ、前記候補ごとに、前記候補を検出するために前記第1の複合語から除かれた単語の属性を前記候補の属性とする候補検出部と、
前記候補のそれぞれについて、漢字仮名混じり文のテキストデータを含むコーパスから、当該候補を含む第2の複合語を検出する候補含有複合語検索部と、
前記候補のそれぞれについて、当該候補を含む前記第2の複合語のうちで当該候補の属性と同じ属性の第2の複合語の出現頻度を算出する属性別頻度算出部と、
前記候補のうち、前記出現頻度が最も高い候補を未知語とし、前記第1の複合語の読みから前記未知語以外の部分の読みを除いた部分を前記未知語の読みと推定する読み推定部と、
を有する読み推定装置。 - 前記属性別頻度算出部は、前記第2の複合語に含まれる前記候補を除いた部分と一致する前記属性付辞書に登録された単語を検出し、該検出された単語の属性を前記第2の複合語の属性とする、請求項1に記載の読み推定装置。
- 漢字仮名混じり文及び該漢字仮名混じり文の読みを表すテキストデータから、複数の漢字が連続する文字列を検出し、該検出された文字列のうち、当該文字列の一部に前記属性付辞書に登録された何れの単語とも一致しない文字を含む文字列を前記第1の複合語として検出する未知語含有複合語検出部をさらに有する、請求項1または2に記載の読み推定装置。
- 第1の複合語及び該第1の複合語の読みを表すテキストデータを取得し、
処理部が、記憶部に記憶された属性付辞書に属性とともに登録された複数の単語のうち、前記第1の複合語の一部と一致する少なくとも一つの単語のそれぞれを前記第1の複合語から除くことで少なくとも一つの読みが未知の語の候補を検出し、かつ、前記候補ごとに、前記候補を検出するために前記第1の複合語から除かれた単語の属性を前記候補の属性とし、
前記処理部が、前記候補のそれぞれについて、漢字仮名混じり文のテキストデータを含むコーパスから、前記候補を含む第2の複合語を検出し、
前記処理部が、前記候補のそれぞれについて、当該候補を含む前記第2の複合語のうちで当該候補の属性と同じ属性の第2の複合語の出現頻度を算出し、
前記処理部が、前記候補のうち、前記出現頻度が最も高い候補を未知語とし、前記第1の複合語の読みから前記未知語以外の部分の読みを除いた部分を前記未知語の読みと推定する、
ことを含む読み推定方法。 - 第1の複合語及び該第1の複合語の読みを表すテキストデータを取得し、
記憶部に記憶された属性付辞書に属性とともに登録された複数の単語のうち、前記第1の複合語の一部と一致する少なくとも一つの単語のそれぞれを前記第1の複合語から除くことで少なくとも一つの読みが未知の語の候補を検出し、かつ、前記候補ごとに、前記候補を検出するために前記第1の複合語から除かれた単語の属性を前記候補の属性とし、
前記候補のそれぞれについて、漢字仮名混じり文のテキストデータを含むコーパスから、前記候補を含む第2の複合語を検出し、
前記候補のそれぞれについて、当該候補を含む前記第2の複合語のうちで当該候補の属性と同じ属性の第2の複合語の出現頻度を算出し、
前記候補のうち、前記出現頻度が最も高い候補を未知語とし、前記第1の複合語の読みから前記未知語以外の部分の読みを除いた部分を前記未知語の読みと推定する、
ことをコンピュータに実行させるための読み推定用コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007666A JP6221764B2 (ja) | 2014-01-20 | 2014-01-20 | 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007666A JP6221764B2 (ja) | 2014-01-20 | 2014-01-20 | 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015138273A JP2015138273A (ja) | 2015-07-30 |
JP6221764B2 true JP6221764B2 (ja) | 2017-11-01 |
Family
ID=53769266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014007666A Expired - Fee Related JP6221764B2 (ja) | 2014-01-20 | 2014-01-20 | 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6221764B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3470927B2 (ja) * | 1995-05-11 | 2003-11-25 | 日本電信電話株式会社 | 自然語解析方法及び装置 |
JP3573889B2 (ja) * | 1996-11-14 | 2004-10-06 | 株式会社リコー | 音声出力装置 |
KR100682897B1 (ko) * | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | 사전 업데이트 방법 및 그 장치 |
JP2010097239A (ja) * | 2008-10-14 | 2010-04-30 | Nec Corp | 辞書作成装置、辞書作成方法、および辞書作成プログラム |
-
2014
- 2014-01-20 JP JP2014007666A patent/JP6221764B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015138273A (ja) | 2015-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569328B (zh) | 实体链接方法、电子装置及计算机设备 | |
JP5078173B2 (ja) | 多義性解消方法とそのシステム | |
US11397855B2 (en) | Data standardization rules generation | |
KR20160124742A (ko) | 비정형 텍스트내의 특징들의 중의성을 해소하는 방법 | |
CN111694823A (zh) | 机构标准化方法、装置、电子设备及存储介质 | |
CN102314452B (zh) | 一种通过输入法平台进行导航的方法及系统 | |
EP3699780A1 (en) | Method and apparatus for recommending entity, electronic device and computer readable medium | |
US10055408B2 (en) | Method of extracting an important keyword and server performing the same | |
Wu et al. | Searching services" on the web": A public web services discovery approach | |
KR101638535B1 (ko) | 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체 | |
JP2009110508A (ja) | オブジェクト間の競合指標計算方法およびシステム | |
JP2008242626A (ja) | 用語登録装置 | |
JP6476886B2 (ja) | キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
Charton et al. | Improving Entity Linking using Surface Form Refinement. | |
JP6221764B2 (ja) | 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム | |
US9336317B2 (en) | System and method for searching aliases associated with an entity | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
US10606875B2 (en) | Search support apparatus and method | |
US20160283605A1 (en) | Information extraction device, information extraction method, and display control system | |
JP2021086362A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP5187187B2 (ja) | 体験情報検索システム | |
JP2007011892A (ja) | 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
KR101671892B1 (ko) | Uri 정의문 및 부가정보 기반 텍스트에서 개체의 uri를 식별하는 장치, 토픽 분포 추정 방법 및 uri 선택 방법 | |
Lin et al. | Automatic Dish Name Extraction from User-generated Content Using LLM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170918 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6221764 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |