JP2016164724A - Vocabulary knowledge acquisition device, vocabulary knowledge acquisition method, and vocabulary knowledge acquisition program - Google Patents
Vocabulary knowledge acquisition device, vocabulary knowledge acquisition method, and vocabulary knowledge acquisition program Download PDFInfo
- Publication number
- JP2016164724A JP2016164724A JP2015044661A JP2015044661A JP2016164724A JP 2016164724 A JP2016164724 A JP 2016164724A JP 2015044661 A JP2015044661 A JP 2015044661A JP 2015044661 A JP2015044661 A JP 2015044661A JP 2016164724 A JP2016164724 A JP 2016164724A
- Authority
- JP
- Japan
- Prior art keywords
- word
- unknown word
- unknown
- dictionary
- compound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、音声認識などの用途に使用される辞書に新しい語彙を追加する際のユーザ作業を支援する語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラムに関する。 The present invention relates to a vocabulary knowledge acquisition device, a vocabulary knowledge acquisition method, and a vocabulary knowledge acquisition program that support user work when a new vocabulary is added to a dictionary used for applications such as speech recognition.
近年、人間が発した音を認識して文書に記録したり、画面に表示したりする音声認識システムが使用されている。音声認識システムで認識精度を向上させるためには、正しく認識できない語彙の読み、表記、品詞などを辞書に追加することが有効である。ここで、正しく音声認識をするとは、入力された音声信号に対して正しい読みと表記を割り付けることである。 In recent years, a speech recognition system that recognizes a sound generated by a human and records it in a document or displays it on a screen has been used. In order to improve recognition accuracy in a speech recognition system, it is effective to add vocabulary readings, notations, parts of speech, etc. that cannot be recognized correctly to the dictionary. Here, correct speech recognition means assigning correct reading and notation to the input speech signal.
正しく認識できない語彙は、音声認識をした結果を見て判断するばかりでなく、新しく音声認識システムを作成する時に、音声認識システムを使う場面に合わせて、音声認識用の構築済み辞書にない語彙でよく使うものを予想して予め音声認識辞書に追加する場合がある。 Vocabulary that cannot be recognized correctly is not only determined by looking at the results of speech recognition, but also when creating a new speech recognition system, it is a vocabulary that is not in the built-in dictionary for speech recognition. In some cases, frequently used items are predicted and added to the speech recognition dictionary in advance.
この場合、音声認識システムは、音声認識を使う場面に関係する書類や用語リストから、構築済み辞書にはない語彙、すなわち未知語の表記を選んで、品詞や読みの情報を付与して辞書に登録する。 In this case, the speech recognition system selects a vocabulary that is not in the built dictionary, that is, a notation of an unknown word, from a document or term list related to the scene where speech recognition is used, and gives part-of-speech and reading information to the dictionary. sign up.
従来では、未知語の表記に正しい読みの情報を付与するために、次のような未知語に対する読みを抽出する方法がある。例えば、事前に用意された読み判断用辞書やルールを参照し、読みを推定する技術がある。例えば、未知語に対して、未知語読み付け辞書を参照し、表記「ABC」には登録されている表記「A」「B」「C」に対応する読み「えー」「びー」「しー」を連結したものを読みとして付与する。また、読み確率記憶部に記録された二つのテーブルを参照して条件付き確率最大となる読み候補を生成し、表記と読みのセットでWebを検索した結果得られたヒット件数から読み候補の優劣を判断し、優先度の高い読み候補を選択する。 Conventionally, in order to give correct reading information to an unknown word notation, there is a method of extracting readings for unknown words as follows. For example, there is a technique for estimating a reading by referring to a dictionary and rules for reading determination prepared in advance. For example, for unknown words, the unknown word reading dictionary is referred to, and the readings “E”, “B”, “S” corresponding to the registered “A”, “B”, “C” are registered in the notation “ABC”. "Is added as a reading. In addition, with reference to the two tables recorded in the reading probability storage unit, a reading candidate having the maximum conditional probability is generated, and the reading candidate is superior or inferior from the number of hits obtained as a result of searching the Web with a set of notation and reading. And select a reading candidate with a high priority.
さらに、同義語の一種である略語と原語(正式名称)の組み合わせをWeb検索結果から探索する技術がある。この技術では、略語が入力された場合に、略語の部分のみが異なる構文を抽出し、略語と同じ位置で使われている表現を原語(正式名称)と推定する。 Furthermore, there is a technique for searching a combination of an abbreviation, which is a kind of synonym, and an original word (official name) from a Web search result. In this technique, when an abbreviation is input, a syntax that differs only in the abbreviation portion is extracted, and an expression used at the same position as the abbreviation is estimated as an original word (official name).
このように、従来の技術では、システムに設けられた情報(予め辞書等に登録された情報)に基づいて読みを推定しているため、システムが推定できない特殊な読みや、システムに設定されていない表記に対する読みを追加することができない。 As described above, in the conventional technique, reading is estimated based on information provided in the system (information registered in a dictionary or the like in advance), and therefore, special reading that cannot be estimated by the system or set in the system. Cannot add readings for no notation.
また、略語と原語(正式名称)の組み合わせをWeb検索結果から探索する技術は、複数の原語候補が抽出された場合のみ、原語候補から略語を推定して絞り込みを行っている。従って、同じ構文の表現が少ない場合は、略語に対して、同義ではない類義語を唯一の原語候補として抽出するおそれがある。 Further, the technique for searching for combinations of abbreviations and original words (official names) from Web search results estimates and narrows down abbreviations from original word candidates only when a plurality of original word candidates are extracted. Therefore, when there are few expressions of the same syntax, there is a possibility that synonyms that are not synonymous with abbreviations are extracted as the only original word candidates.
本発明が解決しようとする課題は、辞書へ追加する表記に関する知識として、表記に対する読みの候補を予め設定された情報内に制限されることなく提示することが可能な語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラムを提供することである。 The problem to be solved by the present invention is to provide a vocabulary knowledge acquisition device and vocabulary knowledge that can present reading candidates for a notation within a preset information as knowledge about the notation to be added to a dictionary. An acquisition method and a vocabulary knowledge acquisition program are provided.
実施形態によれば、語彙知識獲得装置は、形態素解析手段、複合語抽出手段、未知語抽出手段、未知語関連情報付与手段、略称推定手段、正式表記候補付与手段、及び結果出力手段とを有する。形態素解析手段は、平文コーパスに含まれるテキストを単語に分割して、各単語に品詞を付与する形態素解析をする。複合語抽出手段は、前記形態素解析の結果をもとに複合語を抽出する。未知語抽出手段は、前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出する。未知語関連情報付与手段は、前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与する。略称推定手段は、複合語から略称を生成する。正式表記候補付与手段は、前記略称推定手段により生成された略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与する。結果出力手段は、前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、辞書追加登録効果の高い順に並べて語彙リストとして出力する。 According to the embodiment, the vocabulary knowledge acquisition device includes a morphological analysis unit, a compound word extraction unit, an unknown word extraction unit, an unknown word related information addition unit, an abbreviation estimation unit, a formal notation candidate addition unit, and a result output unit. . The morpheme analysis means divides the text included in the plaintext corpus into words and performs morpheme analysis that gives parts of speech to each word. The compound word extracting unit extracts a compound word based on the result of the morphological analysis. The unknown word extraction means compares the word obtained by the morphological analysis and the compound word obtained by the compound word extraction with a registered word of the constructed dictionary, and extracts an unknown word that is not registered in the constructed dictionary. . The unknown word related information adding means extracts a reading candidate for the unknown word from data acquired from the outside, and adds it to the unknown word as unknown word related information. The abbreviation estimation means generates an abbreviation from the compound word. The formal notation candidate assigning means assigns a compound word that is the generation source of the abbreviation to the unknown word as a formal notation candidate when the abbreviation generated by the abbreviation estimation means matches the unknown word. The result output means puts together the unknown word, the unknown word related information, and the formal notation candidates, and outputs them as a vocabulary list arranged in descending order of the dictionary additional registration effect.
以下、実施形態について図面を参照して説明する。 Hereinafter, embodiments will be described with reference to the drawings.
図1は、本実施形態における語彙知識獲得装置10を用いるシステムの構成を示すブロック図である。図1に示すシステムにおいて、語彙知識獲得装置10は、インターネット等のネットワーク12を通じて、Webサーバ14−1,14−2,…,14−nや各種の電子機器と通信して、各種データを送受信することができる。
FIG. 1 is a block diagram showing the configuration of a system that uses a vocabulary
本実施形態における語彙知識獲得装置10は、例えばパーソナルコンピュータ等のコンピュータによって実現される。図1に示すように、語彙知識獲得装置10は、プロセッサ20、メモリ21、記憶装置24、入力ユニット25、表示ユニット26、音声入力ユニット27、音声出力ユニット28、及び通信ユニット29を有する。
The vocabulary
プロセッサ20は、記憶装置24からメモリ21に読み出された各種プログラム(ソフトウェア)を実行することにより各種の機能を実現する。例えば、プロセッサ20は、メモリ21に記憶されたOS(Operating System)やアプリケーションプログラムなどの各種プログラム(ソフトウェア)を実行して、各種機能を実現する。例えば、プロセッサ20は、語彙知識獲得プログラム21aを実行して、音声認識システムで使用される音声認識辞書(構築済み辞書24e)に新しい語彙を追加する際のユーザ作業を支援するための機能を実現する。語彙知識獲得プログラム21aに基づいて実現される機能については図2に示す。また、プロセッサ20は、音声認識プログラム21bを実行することにより音声認識システムを実現する。
The
メモリ21は、プロセッサ20により実行されるプログラムやデータを記憶する。
The
記憶装置24は、OS(Operating System)やアプリケーションプログラムなどの各種プログラム(ソフトウェア)やプログラムの実行に必要なデータなどを、不揮発性の記憶媒体において記憶する。記憶装置24に記憶されるデータは、例えば平文コーパス24a、正式名称リスト24b、日英機械翻訳辞書24c、Webクローリングデータ24d、構築済み辞書24e、仮構築辞書24f、語彙リスト24g、及び音声ファイナル24hを含む。各データの詳細については後述する。
The
入力ユニット25は、プロセッサ20の制御のもとで、ユーザにより操作される入力デバイス(例えば、キーボード、マウス、タブレット等)からの入力を制御する。
The
表示ユニット26は、プロセッサ20の制御のもとで、LCD(Liquid Crystal Display)等のディスプレイにおける表示を制御する。
The
音声入力ユニット27は、プロセッサ20の制御のもとで、マイクからの音声入力を制御する。
The
音声出力ユニット28は、プロセッサ20の制御のもとで、スピーカやヘッドホン等からの音声出力を制御する。
The
通信ユニット29は、ネットワーク12を通じて、Webサーバ14や電子機器との通信を制御する。
The
なお、語彙知識獲得装置10は、ハードウェア構成、又はハードウェア資源とソフトウェア(プログラム)との組合せ構成のいずれでも実施可能である。ソフトウェアは、予めネットワーク12又は非一時的なコンピュータ読み取り可能な記憶媒体からコンピュータにインストールされ、当該コンピュータのプロセッサ20に実行されることにより、各装置の機能を当該コンピュータに実行させる。
Note that the vocabulary
図2は、本実施形態における語彙知識獲得装置10の機能構成を示すブロック図である。プロセッサ20は、語彙知識獲得プログラム21aを実行することにより、機能部30に含まれる各機能を実現する。機能部30に含まれる各機能は、記憶部32に含まれる各データに対する処理を実行する。
FIG. 2 is a block diagram showing a functional configuration of the vocabulary
語彙知識獲得装置10は、語彙知識獲得プログラム21aに基づいて、形態素解析機能41、複合語抽出機能42、未知語抽出機能43、未知語関連情報付与機能44、略称推定機能45、正式表記候補付与機能46、結果出力機能47、及び辞書編集機能48による処理を実行する。
Based on the vocabulary
なお、音声認識システム49は、プロセッサ20が音声認識プログラム21bを実行することにより実現される機能である。音声認識システム49は、語彙知識獲得装置10の機能とは独立したシステムであり、辞書編集機能48による処理において利用される。ただし、音声認識システム49は、語彙知識獲得プログラム21aにより実現される機能の一部としても良い。
The
記憶部32(記憶装置24)には、機能部30の各機能の処理に必要な資源である、平文コーパス24a、正式名称リスト24b、日英機械翻訳辞書24c、Webクローリングデータ24d、構築済み辞書24e、仮構築辞書24f、音声ファイル24hとが含まれる。また、記憶部32には、各機能の処理結果とする語彙リスト24gが記憶される。
The storage unit 32 (storage device 24) includes a
構築済み辞書24eは、例えば音声認識システム49による音声認識処理に利用される辞書である。構築済み辞書24eには、例えば図4に示すように、表記(見出し語)、品詞、読みを示すデータの組が、複数の見出し語毎に登録されている。構築済み辞書24eには、語彙知識獲得装置10による処理結果を利用して、ユーザ操作によって新たな語彙(品詞、表記、読み)を追加することができる。
The built
平文コーパス24aは、構築済み辞書24eに新しい語彙を追加するために使用される書類(例えば、テキストデータ)の集合である。例えば、平文コーパス24aから構築済み辞書24eに登録されていない未知語が抽出され、この未知語が構築済み辞書24eへ追加する語彙の候補となる。平文コーパス24aは、音声認識システム49を使う分野についての音声認識の品質を向上するため、該当する分野に関係する書類が用いられる。例えば、医療・薬学分野であれば、薬剤の添付文書などが該当する。
The
正式名称リスト24bは、音声認識システム49を使う場面に関連する表記(用語等)が登録された用語リストである。例えば、医療・薬学分野であれば、病名などの正式名称リスト(医学用語辞書)、薬剤リストなどが該当する。なお、人名について音声認識処理をする場合には、人名リスト(一般的な人名だけでなく、芸名などを含んでも良い)が用いられる。同様にして、地名については地名リスト、商品名については商標リストを用いるなど、音声認識処理の対象とする分野に応じたリストが用いられる。
The
日英機械翻訳辞書24cは、日本語の表記と、その表記に対する英語の対訳が登録されたリストである。例えば、日本語の表記「リンパ節」(読み:りんぱせつ、品詞:名詞−一般)に対して、英語の対訳である「lymph node」が登録されている。
The Japanese-English
Webクローリングデータ24dは、Webクローリングによって、ネットワーク12(インターネット)を通じて外部から取得されるデータである。Webクローリングデータ24dは、Webサイト(Webサーバ14)において公開されているWebページを静的なファイルとして保存したものである。Webクローリングデータ24dは、平文コーパス24aから抽出された未知語(表記)に対する読みの情報を獲得するために利用される。Webクローリングデータ24dのファイルの形式は、インターネット公開ページのソースであるHTML(Hyper Text Markup Language)形式であっても、HTML形式を公開ページと同じ体裁の一般文書形式に変換したものであってもよい。Webクローリングデータ24dは、語彙知識獲得装置10の語彙知識獲得プログラム21aによる機能によって、ネットワーク12を通じてWebサーバ14から収集しても良いし、語彙知識獲得装置10とは別の電子機器において作成したものを入力しても良い。Webクローリングデータ24dは、語彙知識獲得装置10に固定的に記録されたデータではなく、継続的に更新されるデータである。従って、インターネットを通じて公開されているWebページが更新されることで、Webクローリングデータ24dから表記に対する新たな読みの情報を獲得することができる。
The
仮構築辞書24fは、構築済み辞書24eがコピーされた音声認識システム49による音声認識処理に利用される辞書である。仮構築辞書24fは、構築済み辞書24eに追加する表記の候補を追加して、音声認識システム49による音声認識処理を実行するために利用される。語彙知識獲得装置10は、構築済み辞書24eを用いた音声認識処理の結果と、仮構築辞書24fを用いた音声認識処理結果(解析結果)との差分を抽出して、構築済み辞書24eへ追加する表記に関する知識として抽出する。
The
語彙リスト24gは、構築済み辞書24eに新しい表記を追加する際のユーザ作業を支援するために、ユーザに提示されるデータである。語彙リスト24gは、構築済み辞書24eに追加する表記(未知語)の候補について、ユーザが構築済み辞書24eに表記を追加するか否かを判断する際に参考となるデータ(知識)を提示する。詳細については後述する(図7参照)。
The
音声ファイル24hは、音声認識システム49により構築済み辞書24e及び仮構築辞書24fを用いた音声認識処理を実行させるための、音声認識システム49に対する入力音声とする音声データである。音声ファイル24hは、例えば平文コーパス24aのテキストデータと1対1で対応づけられた音声データ、すなわち平文コーパス24aのテキストを読み上げた音声の音声データである。なお、音声ファイル24hは、ユーザによりテスト用として用意された、平文コーパス24aのテキストとは別の内容の音声データのファイルとしても良い。
The
次に、本実施形態における語彙知識獲得装置10の語彙知識獲得処理の動作について、図3に示すフローチャートを参照しながら説明する。
まず、形態素解析機能41は、平文コーパス24aについて、形態素解析処理を実行する(ステップA1)。形態素解析機能41は、形態解析処理によって、平文コーパス24aに含まれる日本語のテキストデータを単語に分割し、各単語について品詞を付与する。
Next, the operation of the vocabulary knowledge acquisition process of the vocabulary
First, the morpheme analysis function 41 executes a morpheme analysis process for the
例えば、形態素解析機能41は、平文コーパス24a中の日本語テキスト「風邪の初期症状の訴えがあったため、葛根湯を処方しました。LNの腫れはありません。」のテキストデータについて形態素解析処理を実行した結果、図5に示すような形態素解析結果が得られる。
For example, the morphological analysis function 41 executes the morphological analysis processing on the text data of the Japanese text in the
次に、複合語抽出機能42は、形態素解析機能41の出力(形態素解析結果)を入力し、形態素解析結果に基づいて複合語を抽出するための複合語抽出処理を実行する(ステップA2)。
Next, the compound
複合語抽出機能42は、隣接する形態素を連結して複合語を構成すると推定できる文字列を抽出して、複合語として出力する。複合語を構成する文字列の判断として、例えば、「『名詞−一般』の連続部分は複合語(複合名詞)と推測する」などのルールを用いる。
The compound
図5に示す形態素解析結果では、「初期」と「症状」がともに品詞「名詞−一般」であり連続して現れるため、「初期症状」を複合語(複合名詞)と推測できる。また、一つの形態素解析結果だけではなく、大量の形態素解析結果を元にして、隣接して現れる頻度の高い形態素のつながりを複合語と推測する技術を利用することもできる。ここで、「名詞−一般」に限定せず「名詞」の連続部分もしくはアルファベットの連続部分を複合語(複合名詞)と推測すると、図5に示す形態素解析結果からは「初期症状」と「葛根湯」と「LN」が、複合語(複合名詞)として抽出される。 In the morphological analysis result shown in FIG. 5, since both “initial” and “symptom” are part-of-speech “noun-general” and appear continuously, it is possible to infer “initial symptom” as a compound word (compound noun). Further, it is also possible to use a technique for inferring not only a single morpheme analysis result but also a high-frequency morpheme connection that appears adjacently as a compound word based on a large amount of morpheme analysis results. Here, without limiting to “noun-general”, if a continuous part of “noun” or a continuous part of the alphabet is assumed to be a compound word (compound noun), the result of morphological analysis shown in FIG. "Yu" and "LN" are extracted as compound words (compound nouns).
次に、未知語抽出機能43は、形態素解析機能41の形態素解析結果、及び複合語抽出機能42によれ抽出された複合語から、構築済み辞書24eに登録されていない未知語(語彙)を抽出する未知語抽出処理を実行する(ステップA3)。
Next, the unknown
未知語抽出機能43は、形態素解析機能41から出力される形態素解析結果をもとに、自立語に相当する品詞が付与された基本形を抽出する。自立語とは、単独でも文節を構成することのできる単語を示す。自立語に相当する品詞は、名詞・代名詞・動詞・形容詞・形容動詞・副詞・連体詞・接続詞・感動詞が該当する。
The unknown
図5に示す形態素解析結果から抽出される基本形(表記)は、「風邪(名詞−一般)」「初期(名詞−一般)」「症状(名詞−一般)」「訴え(名詞−一般)」「ある(動詞−自立)」「ため(名詞−非自立−副詞可能)」「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」「処方(名詞−サ変接続)」「する(動詞−自立)」「腫れ(名詞−一般)」の11語となる。 The basic forms (notation) extracted from the morphological analysis results shown in FIG. 5 are “cold (noun-general)”, “initial (noun-general)”, “symptom (noun-general)”, “appeal (noun-general)”, “ "There is (verb-independence)" "For (noun-non-independence-adverb possible)" "Kakone (noun-proper noun-region-general)" "Yu (noun-general)" "Prescription (noun-sa connection)" 11 (verb-independent) "swelling (noun-general)".
さらに、未知語抽出機能43は、複合語抽出機能42の出力(複合語)を、形態素解析機能41の形態素解析結果から抽出した11語に加える。ここで、加える表記(複合語)は、「初期症状(名詞)」「葛根湯(名詞)」「LN(名詞)」の3表記であり、抽出された表記は14語(14表記)となる。ここで、抽出された14語の表記は、平文コーパス24aから抽出された未知語の候補となる。
Further, the unknown
次に、未知語抽出機能43は、未知語の候補(表記)のリストと、構築済み辞書24eとを比較して、構築済み辞書24eに登録されていない未知語を抽出する。すなわち、未知語抽出機能43は、未知語の候補のリストに含まれる表記と品詞の組のうち、構築済み辞書24eに登録されていないものを抽出して出力する。
Next, the unknown
構築済み辞書24eには、「風邪(名詞−一般)」「初期(名詞−一般)」「症状(名詞−一般)」「処方(名詞−サ変接続)」が登録されているため、未知語抽出機能43は、「訴え(名詞−一般)」「ある(動詞−自立)」「ため(名詞−非自立−副詞可能)」「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」「する(動詞−自立)」「腫れ(名詞−一般)」「初期症状(名詞)」「葛根湯(名詞)」「LN(名詞)」の10表記を未知語として抽出する。
Since the “cold (noun-general)”, “initial (noun-general)”, “symptom (noun-general)”, and “prescription (noun-variant connection)” are registered in the built
なお、未知語抽出機能43は、未知語として抽出した表記に、重複する表記が含まれている場合には、一方を削除しても良い。例えば、前述した例では、複合語抽出機能42により複合語として「葛根湯(名詞)」が抽出されている。一方、形態素解析機能41の出力から「葛根湯」の構成要素となっている「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」が抽出されている。この場合、未知語抽出機能43は、形態素解析結果から抽出した「葛根(名詞−固有名詞−地域−一般)」「湯(名詞−一般)」を削除する。
Note that the unknown
この結果、未知語抽出機能43は、「訴え(名詞−一般)」「ある(動詞−自立)」「ため(名詞−非自立−副詞可能)」「する(動詞−自立)」「腫れ(名詞−一般)」「初期症状(名詞)」「葛根湯(名詞)」「LN(名詞)」の8表記を出力する。
As a result, the unknown
さらに、未知語抽出機能43は、構築済み辞書24eに登録する表記(語彙)の候補を、品詞に基づいて制限する。例えば、未知語抽出機能43は、例えば名詞で非自立ではない品詞の表記のみを登録の候補とする。
Further, the unknown
この結果、未知語抽出機能43は、「訴え(名詞−一般)」「初期症状(名詞)」「腫れ(名詞−一般)」「葛根湯(名詞)」「LN(名詞)」の5表記を出力する。以後の処理では、未知語抽出機能43の出力を「訴え(名詞−一般)」「初期症状(名詞)」「腫れ(名詞−一般)」「葛根湯(名詞)」「LN(名詞)」の5表記として説明する。
As a result, the unknown
次に、未知語関連情報付与機能44は、未知語関連情報付与処理を実行し、未知語抽出機能43から出力された表記(構築済み辞書24eに登録する表記(未知語)の候補)のそれぞれについて、ユーザが構築済み辞書24eに追加するか否かを判断する際に参考となるデータ(未知語関連情報)を求めて付与する(ステップA4)。
Next, the unknown word related
ここでは、未知語関連情報付与機能44は、未知語抽出機能43が出力した5表記それぞれについて、未知語関連情報を求めて付与する。
Here, the unknown word related
未知語関連情報は、例えば、推定される品詞(「推定品詞」)、平文コーパス24a(テキストデータ)を処理した際の出現頻度(「出現頻度」)、Webクローリングデータ24dから抽出した未知語に対する読み(「読み」)、未知語に対する読みを抽出したスニペット・情報源(「スニペット・情報源」)、未知語と読み・表記・品詞が類似する構築済み辞書24eに登録済みの表記(類似登録語)とその使用頻度、辞書に対する表記(見出し語)の追加あるいは削除をする前後の音声認識処理結果(解析結果)の差分などの情報の少なくとも1つを含む。
The unknown word related information includes, for example, an estimated part of speech (“estimated part of speech”), an appearance frequency when processing the
図6は、本実施形態における未知語関連情報付与機能44により出力される未知語関連情報の一例を示す図である。
ここでは、平文コーパス24aに、日本語テキスト「風邪の初期症状の訴えがあったため、葛根湯を処方しました。LNの腫れはありません。」を含み、この日本語テキスト以外の大量のテキストに「初期症状」「葛根湯」などの表記が、それぞれ複数回出現する場合の例を示している。
FIG. 6 is a diagram illustrating an example of unknown word related information output by the unknown word related
Here, the
「推定品詞」は、未知語抽出機能43により出力される表記に付された形態素解析により得られた品詞である。
The “estimated part of speech” is a part of speech obtained by morphological analysis attached to the notation output by the unknown
「出現頻度」は、未知語抽出機能43により出力される表記の平文コーパス24a中の出現数をカウントした数である。
The “appearance frequency” is a number obtained by counting the number of appearances in the
「読み」は、未知語抽出機能43により出力される表記に付された形態素解析により得られた読み、あるいはWebクローリングデータ24dから抽出した表記(未知語)に対する読みである。未知語関連情報付与機能44は、未知語抽出機能43が出力した表記(未知語)をもとに、Webクローリングデータ24dから読みに相当する文字列を抽出する。
The “reading” is a reading obtained by morphological analysis attached to the notation output by the unknown
例えば、未知語関連情報付与機能44は、Webクローリングデータ24dからの未知語と読みの組み合わせが記述された部分を抽出する。例えば、未知語の直後に「()」で囲まれた「ひらがな」もしくは「カタカナ」の記述がある場合に、未知語と読みの組み合わせが記述された部分として抽出する。
For example, the unknown word related
あるいは、未知語関連情報付与機能44は、Webクローリングデータ24dの表形式の記述部分において、ある列には未知語が記述され、他の列に「ひらがな」もしくは「カタカナ」による記述が未知語と対応づけられている場合に、未知語とその読みの組み合わせと判断して抽出する。
Alternatively, the unknown word related
「スニペット・情報源」は、例えば、Webクローリングデータ24d中の未知語の読みを含むスニペット(一部でも良い)、及び未知語を含むWebサイト(Webページ)の例えばURL(uniform resource locator)である。未知語の読みを含む「スニペット・情報源」の組が複数抽出された場合、未知語関連情報付与機能44は、複数の組を全て抽出しても良いし、同じ読みが付与された回数が最も多いスニペットのみを採用しても良い。さらに未知語関連情報付与機能44は、ユーザが予め付与したWebサイトの信頼度が高いものを優先的に採用するなどして、未知語関連情報とする情報を集約してもよい。
The “snippet / information source” is, for example, a snippet (may be a part) including an unknown word reading in the
登録済みの表記とその使用頻度は、構築済み辞書24eから抽出される未知語(表記)と読み・表記・品詞が類似(少なくとも読みが一致する)する登録済みの表記と、この登録済みの表記の平文コーパス24a中の出現数をカウントした数である。
The registered notation and the frequency of use thereof are the registered notation and the registered notation in which the unknown word (notation) extracted from the constructed
図6に示す未知語関連情報では、未知語「腫れ」に対して、「晴れ(はれ、品詞:名詞−一般、出現頻度:1)」の情報が追加されている。 In the unknown word related information shown in FIG. 6, information of “clear (swelling, part of speech: noun—general, appearance frequency: 1)” is added to the unknown word “swelling”.
「差分」は、未知語を仮構築辞書24fに登録した場合の仮構築辞書24fを用いた音声認識処理の結果と、未知語が登録されていない構築済み辞書24eを用いた音声認識処理の結果との差分(音声認識結果の違い)についての情報である。未知語関連情報付与機能44は、次のようにして「差分」の情報を求める。
“Difference” indicates the result of the speech recognition process using the
未知語関連情報付与機能44は、辞書編集機能48によって未知語とする表記・品詞・読みの組み合わせを、辞書編集機能21を通じて、構築済み辞書24eのコピーである仮構築辞書24fに追加させる。次に、未知語関連情報付与機能44は、辞書編集機能48に対して、仮構築辞書24fと構築済み辞書24eとを用いた音声認識処理の実行を指示する。辞書編集機能48は、未知語関連情報付与機能44からの指示に応じて、未知語が登録された仮構築辞書24fと、構築済み辞書24eを用いた音声認識処理を音声認識システム49により実行させる。この際、辞書編集機能48は、音声認識システム49に対して、音声ファイル24hを音声認識処理の対象とする音声データとして入力する。
The unknown word related
辞書編集機能48は、仮構築辞書24fを用いた音声認識処理の結果と、構築済み辞書24eを用いた音声認識処理の結果を、未知語関連情報付与機能44に出力する。未知語関連情報付与機能44は、仮構築辞書24fと構築済み辞書24eをそれぞれ用いた音声認識結果をもとに差分(音声認識結果の違い)についての情報を作成する。
The
なお、未知語関連情報付与機能44は、未知語に対して「読み・表記・品詞が類似する登録語」が構築済み辞書24eに存在する場合は、その登録語を仮構築辞書24fから削除し、新しい解析結果として未知語関連情報に付与することもできる。
The unknown word related
こうして、辞書に対する未知語の追加あるいは削除をする前後の音声認識処理結果の差分の情報を抽出することにより、ユーザが未知語を辞書へ登録した場合の有効性を確認して辞書編集を行うことができるため、辞書編集の効率が向上し、さらに辞書編集の弊害を予め確認して予防することができる。 In this way, by extracting information on the difference between the speech recognition processing results before and after adding or deleting unknown words to the dictionary, it is possible to check the effectiveness when the user registers the unknown words in the dictionary and perform dictionary editing Therefore, the efficiency of dictionary editing can be improved, and the adverse effects of dictionary editing can be confirmed and prevented in advance.
図6に示す未知語関連情報では、未知語「腫れ」「葛根湯」について、「差分」の情報が追加されている(図中A,Bに示す)。 In the unknown word related information shown in FIG. 6, “difference” information is added for the unknown words “swelling” and “Kakkonto” (shown in A and B in the figure).
なお、図6に示す未知語関連情報では、抽出できなかった情報については空欄としている。例えば、スニペット・情報源がWebクローリングデータ24dから抽出されなかった場合や、読み・表記・品詞が類似する登録語が構築済み辞書24eから抽出されなかった場合は、空欄としている。また、「差分」の情報は、形態素解析機能41が付与した読みとは異なる場合のみ付与するようにしても良い。
In the unknown word related information shown in FIG. 6, information that could not be extracted is blank. For example, if the snippet / information source is not extracted from the
次に、略称推定機能45は、未知語関連情報に含まれる略称を表す未知語に対して正式表記を付与するため、未知語関連情報に含まれる可能性のある略称を推定するための略称推定処理を実行する(ステップA5)。
Next, the
略称推定機能45は、正式名称リスト24bに登録された表記、形態素解析機能41による形態素解析結果により得られた表記、及び複合語抽出機能42によって正式名称の一部として抽出される表記をもとに略称を作成する。ここでは、略称推定機能45は、英語の複数単語からなる表記、もしくは、日本語の複数の形態素から構成される表記に対して略称を生成する。
The
例えば、正式名称リスト24bに日本語の表記「リンパ節」が登録されていて、日英機械翻訳辞書24cに英語の対訳である「lymph node」が登録されている場合、略称推定機能45は、「リンパ節」の略称として、英語の対訳の頭文字を大文字にして連結した「LN」を生成する。
For example, when the Japanese name “lymph node” is registered in the
また、略称推定機能45は、例えば、日本語の正式名称「動脈注射」に対して、形態素解析結果「動脈(名詞−一般)注射(名詞−サ変接続)」の形態素の最初の文字を連結した略称「動注」を生成する。
The
次に、正式表記候補付与機能46は、未知語関連情報に含まれる略称推定機能45により生成された略称に相当する未知語に対して、正式表記候補と読みを付与する正式候補付与処理を実行する(ステップA6)。
Next, the formal notation
まず、正式表記候補付与機能46は、未知語関連情報付与機能44が出力した未知語関連情報中の表記(未知語)と、略称推定機能45が生成した略称とを比較する。
First, the formal notation
未知語関連情報中の表記(未知語)と一致する略称がある場合、正式表記候補付与機能46は、未知語関連情報中の該当する表記(未知語)に対して、略称の元となった正式名称とその読み・品詞を付与する。
When there is an abbreviation that matches the notation (unknown word) in the unknown word related information, the formal notation
例えば、図6に示す未知語関連情報では、未知語「LN」が、略称推定機能45により生成された正式表記「リンパ節」から推定した略称「LN」と一致する。この場合、正式表記候補付与機能46は、未知語「LN」に対して、正式表記候補「リンパ節」と読み「りんぱせつ」と品詞「名詞−一般」を付与する。この正式表記候補の読みと品詞は、略称「LN」の読みと品詞の候補として扱う。
For example, in the unknown word related information shown in FIG. 6, the unknown word “LN” matches the abbreviation “LN” estimated from the formal expression “lymph node” generated by the
次に、結果出力機能47は、正式表記候補付与機能46から出力される未知語関連情報を、ユーザに提示する形式に編集して出力する結果出力処理を実行する(ステップA7)。結果出力機能47は、未知語関連情報に含まれる複数の未知語を、辞書追加登録効果の高い順に並べて語彙リスト24gとして生成し、表示ユニット26において表示させる。
Next, the
なお、結果出力機能47は、語彙リスト24gを一覧表示するだけでなく、未知語(表記)毎に未知語関連情報を順番に表示するようにしても良い。
The
図7は、本実施形態における結果出力機能47から出力される語彙リスト24gの一例を示す図である。図7に示す語彙リスト24gは、図6に示す未知語関連に対して、未知語の並びを出現頻度の高い順に変更した例を示している。
FIG. 7 is a diagram showing an example of the
なお、図7に示す語彙リスト24gには、正式表記候補付与機能46によって、表記「LN」に対して、正式表記候補「リンパ節(読み:りんぱせつ、品詞:名詞−一般)」(図中Dに示す)と、その読み「りんぱせつ」(図中Cに示す)が追加されている。
It should be noted that the
また、前述した説明では、未知語関連情報の未知語(表記)を出現頻度の高い順に並べ替えているが、その他の条件に基づいて編集することも可能である。
例えば、複合語として抽出された表記や、Webクローリングデータ24dから抽出した読み情報が形態素解析機能41の解析結果と異なる表記は、辞書追加登録効果が高いと判断して、語彙リスト24gの上位に位置づけたりしても良い。また、出現頻度が多い、複合語である、Webクローリングデータ24dから抽出した読み情報が形態素解析機能41の解析結果と異なるなど、辞書追加登録効果の判断結果が同じ表記が複数ある場合は、さらに別の辞書追加登録効果の判断基準に基づいて表記を並べ替えても良い。
Further, in the above description, the unknown words (notation) of the unknown word related information are rearranged in the order of appearance frequency, but can be edited based on other conditions.
For example, a notation extracted as a compound word or a notation in which the reading information extracted from the
図7に示す語彙リスト24gは、各表記について複数行からなる表形式の出力例を示しているが、他の形式にすることが可能である。例えば、1つの表記について、未知語関連情報を1行で示す表形式とすることもできる。また、「スニペット・情報源」に関する情報のように、テキストが長い情報については、該当情報へのリンク情報のみを語彙リスト24gに提示するようにしても良い。
The
このようにして、本実施形態における語彙知識獲得装置10は、Webクローリングデータ24dから未知語に対応する読みを獲得することで、語彙知識獲得装置10に予め設定された情報内に制限されることなく、構築済み辞書24eには登録されていない未知語の読みを、形態素解析や推定ルールでは対応できない場合でも取得することができる。また、未知語に対して、略称と正式名称の対応を提示することで、正式名称の読みがそのまま適用される可能性も高い略称に対して適切な読みを付与できる。また、略称に対して正式名称との対応が提示されることで、認識した単語の意味を把握する必要のある音声対話にも対応が容易となる。平文コーパス24aからの構築済み辞書24eへ登録する候補とする表記の抽出と読み推定が機械的に実施されることで、人手で実施する場合の作業時間を削減でき、また構築済み辞書24eに登録されていない未知語の抽出漏れを削減できる。ユーザは、語彙リスト24gによって提示された構築済み辞書24eへの登録の候補とする表記(未知語)について、それぞれに付与された未知語関連情報をもとに、登録するか否かを判断することができる。
In this way, the vocabulary
なお、未知語関連情報付与機能44により抽出される未知語に対応する「差分」の情報は、語彙リスト24gをユーザに提示した後、語彙リスト24gからユーザ操作によって選択された表記(未知語)に対してのみ実行するようにしても良い。「差分」の情報の抽出方法は、前述と同様にして実行されるものとして詳細な説明を省略する。
The “difference” information corresponding to the unknown word extracted by the unknown word related
ユーザによって選択された表記(未知語)に対してのみ「差分」の情報を生成することにより、語彙リスト24gを提示するための処理負担を軽減して、短時間で語彙リスト24gをユーザに対して提示することが可能となる。
By generating “difference” information only for the notation (unknown word) selected by the user, the processing burden for presenting the
次に、本実施形態における未知語関連情報付与機能44による未知語関連情報付与処理の応用例について説明する。図8は、本実施形態における未知語関連情報付与処理を示すフローチャートである。
Next, an application example of the unknown word related information adding process by the unknown word related
ここでは、未知語関連情報付与機能44は、Webサイト(Webサーバ14)により公開されている情報の信頼性を示す信頼性評価リストを利用して未知語関連情を作成する。
Here, the unknown word related
Webサイトには、専門家が編集した信頼できる情報を公開しているものと、非専門家が編集した信頼性が低い情報を公開しているものが混在している。 There are a mixture of Web sites that disclose reliable information edited by experts and those that disclose low-reliability information edited by non-experts.
図9は、本実施形態における信頼性評価リストの一例を示す図である。図5に示す例では、信頼性評価リストは、Webサイト(URL)ごとに、信頼性を示す評価値、例えば「○」「△」「×」の3段階の評価値を記録できる。また、信頼性評価リストは、Webサイト(URL)ごとに、Webサイトから抽出した情報(未知語に対する読み)をユーザに提示した際に、ユーザがその情報を採用したか否かを「読み採用数」「読み不採用数」として記録できる。 FIG. 9 is a diagram showing an example of the reliability evaluation list in the present embodiment. In the example illustrated in FIG. 5, the reliability evaluation list can record evaluation values indicating reliability, for example, three-level evaluation values “◯”, “Δ”, and “×” for each Web site (URL). In addition, the reliability evaluation list indicates, for each website (URL), when the information extracted from the website (reading for unknown words) is presented to the user, whether or not the user has adopted the information is “reading adopted. It can be recorded as “number” and “number of reading failures”.
未知語関連情報付与機能44は、Webクローリングデータ24dから「スニペット・情報源」の組を複数抽出した場合(ステップB1、Yes)、図9に示す信頼性評価リストを参照し、ユーザに提示する「スニペット・情報源」の情報を選択する(ステップB2)。
When a plurality of “snippet / information source” pairs are extracted from the
例えば、未知語関連情報付与機能44は、信頼性が「○」で、読み採用数が多く、読み不採用数が少ないサイトの情報を優先して選択して、未知語関連情報として付与する。
For example, the unknown word related
また、未知語関連情報付与機能44は、未知語関連情報に付与した情報が採用された場合(ステップB3、Yes)、すなわち語彙リスト24gにおいて提示した読みが未知語と共に登録された場合、信頼性評価リスト中の該当する情報が抽出されたWebサイトの「読み採用数」をカウントアップする(ステップB4)。なお、信頼性評価リストの「読み不採用数」は、例えば、ユーザによって不採用として明示的に指定された場合や、1つの表記に対して複数の読みが提示されている時に選択されなかった場合にカウントアップする。
Further, the unknown word related
なお、信頼性の評価値は、ユーザがWebサイトの内容を確認した上でユーザ操作によって信頼性評価リストに設定しても良いし、「読み採用数」と「読み不採用数」に応じて予め設定されたルールに従って自動的に設定しても良い。例えば、「読み採用数」が基準値以上で「読み不採用数」が「0」の場合には信頼性を「○」に設定したり、「読み採用数」と「読み不採用数」との比率に基づいて設定したりしても良い。 The reliability evaluation value may be set in the reliability evaluation list by the user operation after the user confirms the content of the website, or according to the “reading adoption number” and “reading rejection number”. It may be automatically set according to a preset rule. For example, when the “reading adoption number” is equal to or higher than the reference value and the “reading rejection number” is “0”, the reliability is set to “○”, or “reading adoption number” and “reading rejection number” Or may be set based on the ratio.
なお、信頼性評価リストを利用する場合、信頼性が「○」のWebサイトのみを利用しても良いし、信頼性が「○」のWebサイトから必要な情報が抽出できない場合に信頼性が「△」のWebサイトを利用するようにしても良い。さらに、その他の利用方法を用いることも可能である。また、評価値は、3段階に限らず、任意の段数とすることができる。 When using the reliability evaluation list, it is possible to use only the website with the reliability “O”, and the reliability is obtained when necessary information cannot be extracted from the website with the reliability “O”. You may make it utilize the web site of "(triangle | delta)". Furthermore, other utilization methods can be used. Further, the evaluation value is not limited to three stages, and can be an arbitrary number of stages.
このようにして、事前に評価されたWebサイトの信頼性を参照して情報を選択することで、ユーザに信頼性の高い情報を提示することができる。また、ユーザが提示された情報を採用したか否かの履歴を蓄積し、評価を更新することで、ユーザへの提示情報の信頼性をさらに向上できる。 In this manner, highly reliable information can be presented to the user by selecting information with reference to the reliability of the website evaluated in advance. Moreover, the reliability of the information presented to the user can be further improved by accumulating a history of whether or not the information presented by the user has been adopted and updating the evaluation.
次に、本実施形態における結果出力機能47による結果出力処理の応用例について説明する。図10は、本実施形態における結果出力処理を示すフローチャートである。
Next, an application example of the result output process by the
結果出力機能47は、正式表記候補付与機能46により作成された未知語関連情報(未知語のリスト)を、辞書追加登録効果の高い順に未知語を並べ変えてユーザに提示する。
The
結果出力機能47は、辞書追加登録効果の高い順の判断指標として、例えば以下の7指標を用いることができる。
第1指標:平文コーパス24aにおける出現頻度が高いこと。
第2指標:正式名称リスト24bにおける出現頻度が高いこと。
第3指標:構築済み辞書24eに登録された表記と同じ品詞の語彙が多いこと。
第4指標:Webクローリングデータ24dから抽出した読み情報が形態素解析結果から推測される読みと異なること。
第5指標:平文コーパス24a中で表記の直前直後に現れる形態素の異なり数が多いこと。
第6指標:表記の重み評価値tf−idfの値が大きいこと。
第7表記:複合語の独立性を評価する指標(C−value,MC−valueなど)が高いこと。
The
First index: High appearance frequency in the
Second index: high appearance frequency in the
Third index: There are many vocabularies with the same part of speech as the notation registered in the built
Fourth index: Reading information extracted from the
Fifth index: The number of different morphemes appearing immediately before and after the notation in the
Sixth index: The value of the written weight evaluation value tf-idf is large.
Seventh notation: A high index (C-value, MC-value, etc.) for evaluating the independence of compound words.
第1指標を用いることで、出現頻度が高い表記を優先して登録の候補として提示できる。第2指標を用いることで、平文コーパス24aが十分でないとき(例えばデータ量が少ない)であっても、対象分野での出現の可能性が高い、正式名称リスト24bに含まれる正しい表記を優先して提示できる。第3指標を用いることで、構築済み辞書24eにおいて必要とされる可能性の高い品詞(例えば音声認識に有効な形容詞、地名や人名などの認識に有効な固有名詞など)の表記を優先して提示できる。第4指標を用いることで、新しい表記(新語や芸能人名など)であり読みが難しい(一般的ではない)可能性が高く、登録しておくことが有効である可能性が高い表記を優先して提示できる。第5指標を用いることで、独立した単語を優先して提示することができる。第6指標を用いることで、特定分野の文書に偏って出てくる、その分野では重要な単語である可能性が高い表記を優先して提示できる。第7表記を用いることで、複合語に含まれる単語の独立性が低い(いつも複合語で用いられる)表記について、複合語での表記を優先して提示することができる。
By using the first index, it is possible to preferentially present a notation with a high appearance frequency and present it as a registration candidate. By using the second index, priority is given to the correct notation included in the
なお、表記の重み評価値tf−idfは、「tf」(単語の出現頻度)と、「idf」(逆文書頻度)の二つの指標を乗じて計算される指標である。「idf」は多くの文書に出現する語、すなわち一般的な語は値が下がり、特定の文書のみに出現する語は値が高くなる。すなわち、「idf」に「tf」を乗じた「tf−idf」は、特定の文書のみに高頻度で出現する表記に対して高い値となる。従って、ある専門分野に特有の重要単語を判断する指標とすることができる。 The notation weight evaluation value tf-idf is an index calculated by multiplying two indexes of “tf” (word appearance frequency) and “idf” (reverse document frequency). “Idf” has a lower value for words that appear in many documents, that is, general words, and has a higher value for words that appear only in a specific document. That is, “tf−idf” obtained by multiplying “idf” by “tf” is a high value for a notation that appears frequently only in a specific document. Therefore, it can be used as an index for determining an important word specific to a certain specialized field.
また、複合語の独立性を評価する指標C−valueは、文書における単語間の結合度を示す。 In addition, an index C-value for evaluating the independence of compound words indicates the degree of coupling between words in a document.
C−value(w)=(length(w)−1)(n(w)−(t(w)/c(w)))
w:注目している単語
length(w):wの長さ(wを構成する単語の数)
n(w):wの出現回数
t(w):wを含むより長い複合語の出現回数
c(w):wを含むより長い複合語の異なり数
注目している単語がより長い複合語の一部としてしか使われていない場合は、C−valueは0に近い値となる。C−valueの値が大きい語は、独立性が高い。C−valueはwが一つの単語のみから構成される場合は必ず0となってしまうため、一つの単語であっても0以外の評価値となるMC−valueなどの修正式を使用することができる。
C-value (w) = (length (w) -1) (n (w)-(t (w) / c (w)))
w: focused word length (w): length of w (number of words constituting w)
n (w): Number of occurrences of w t (w): Number of occurrences of longer compound words including w c (w): Number of different compound words including w When it is used only as a part, C-value becomes a value close to zero. A word with a large C-value is highly independent. Since C-value is always 0 when w is composed of only one word, it is possible to use a correction formula such as MC-value that gives an evaluation value other than 0 even for one word. it can.
結果出力機能47は、7指標のうちの一つもしくは複数の組み合わせを用いて、辞書追加登録効果の高さを判定し、結果を並べ変える。なお、何れの指標を用いるかは、ユーザが選択できるようにしても良いし、システムが自動的に設定しても良い。システムが自動的に設定する場合には、例えば処理対象とする平文コーパス24aの内容(長さ、分野)などに基づいて決定することができる。また、複数の指標を用いる場合には、指標に優先度を設定しても良い。
The
また、各指標に対して、さらに条件を設定することもできる。例えば、ユーザに提示する値の範囲の指定を受け付け、結果の出力範囲を限定することができる。例えば、「平文コーパスにおける出現頻度が10以上」の指定により出力範囲を限定したり、「推定される品詞が名詞であること」の指定により名詞と推定される表記に限定したりすることができる。 Further, conditions can be set for each index. For example, specification of a range of values to be presented to the user can be accepted and the output range of the result can be limited. For example, the output range can be limited by specifying “appearance frequency in plaintext corpus is 10 or more”, or can be limited to notation presumed to be a noun by specifying “estimated part of speech is a noun”. .
結果出力機能47は、正式表記候補付与機能46から出力された未知語(登録の候補とする表記)のリストに対して、予め設定された指標をもとに辞書追加登録効果の高さを判定し(ステップC1)、この判定結果に応じて未知語の順番を並べ替える(ステップC2)。
The
結果出力機能47は、指標に基づいて表記の順番を並べ替えた語彙リスト24gを出力する(ステップC3)。
The
このようにして、複数の評価指標を設けて柔軟に組み合わせを選択でき、出力範囲を限定することで、出力される語彙リスト24gの上位に、ユーザが求める内容が多く含まれるように精度を向上できる。
In this way, it is possible to select a combination flexibly by providing a plurality of evaluation indexes, and by limiting the output range, the accuracy is improved so that the content required by the user is included at the top of the
次に、本実施形態における複合語抽出機能42による複合語抽出処理の応用例について説明する。図11は、本実施形態における複合語抽出処理を示すフローチャートである。
Next, an application example of the compound word extraction process by the compound
一般に、複合語を構成するか否かの判断を、隣接する形態素の品詞から判断する技術がある。例えば、「名詞−一般」の連続は、複合名詞と判断することが知られている。他に「接頭語と名詞は接続する」「名詞と接尾語は接続する」「格助詞"の"で接続された名詞は、格助詞"の"を含めて接続する」などの適合率の高いルールのみを適用することが一般的である。このような技術では、句読点「、」「。」や「 」(スペース)は区切り文字として扱い、複合語を構成する要素としないことが多い。 In general, there is a technique for determining whether or not to constitute a compound word from the parts of speech of adjacent morphemes. For example, it is known that the sequence of “noun-general” is determined as a compound noun. In addition, "Prefix and noun connect", "Noun and suffix connect", "Noun connected with case particle" "is connected including case particle" "", etc. have high precision It is common to apply only rules. In such a technique, punctuation marks “,” “.” And “” (space) are often treated as delimiters and are not used as elements constituting a compound word.
しかし、近年は、商品名、各種コンテンツ(書籍、映画、アニメーション等)の名称、芸名などの人物名などの固有名詞において、適合率の高いルールでは確実な単語区切りとされる文字等(句読点、スペース、記号など)や品詞を含むものが多分野で使われるようになっている。 However, in recent years, in the proper nouns such as product names, names of various contents (books, movies, animations, etc.), names of people such as stage names, characters etc. (punctuation marks, Things including spaces, symbols, etc.) and parts of speech are used in many fields.
そこで、本実施形態における複合語抽出機能42は、形態素解析機能41により出力される形態素解析結果から、図11に示す手順により複合語を抽出することで、複合語を構成する可能性のある品詞が隣接して現れる部分の組み合わせの全てを複合語候補として抽出する。
Therefore, the compound
すなわち、複合語抽出機能42は、形態素解析機能41の出力(図5に示す)について、確実な単語区切りとして予め設定した文字・品詞を含むか判定する(ステップD1)。予め設定した文字・品詞を含まない場合(ステップD2、No)、複合語抽出機能42は、形態素の連結結果であって、複合語の最初にならない文字・品詞で始まるか判定する(ステップD3)。該当する文字・品詞で始まらない場合(ステップD4、No)、複合語抽出機能42は、複合語の最後にならない文字・品詞で終わるかを判定する(ステップD5)。該当する文字・品詞で終らない場合、複合語抽出機能42は、表記の全てを複合語候補に設定する(ステップD7)。
That is, the compound
複合語抽出機能42は、例えば、図12に示すリストを参照して複合語抽出を実行することができる。図12に示すリストの各行の指定は、「品詞」と「表現」がともに記載されている場合は、品詞と表現がともに一致する形態素を、一方のみが指定されている場合は他方は条件なしとして判断に使用する。なお、図12のリストに該当しない最大長の文字列のみではなくて、その部分文字列も複合語候補とする。
The compound
複合語抽出機能42は、図12に示すリストをもとに複合語抽出をすると、図5に示す形態素解析結果からは「風邪、風邪の初期、風邪の初期症状、風邪の初期症状の訴え、初期症状、初期症状の訴え、葛根湯、葛根湯を処方」の複合語候補を抽出することができる。
When the compound
図12のリストから、句点、読点に関する指定を削除すれば、例えば原文「新チューハイ「○○○。」を発表した。」からは、複合語候補「新チューハイ」「○○○。」「発表」が抽出できる。 If the designations related to the punctuation marks and punctuation marks are deleted from the list of FIG. 12, for example, the original sentence “New Chu-Hi“ XXX ”is announced. ”Can extract compound word candidates“ new chu-hi ”,“ XXX ”, and“ announcement ”.
複合語抽出機能42は、前提として形態素解析機能41の出力から形態素の連結を作成するものに限定しない。例えば、平文コーパス24aのテキストもしくは正式名称リスト24bの原文を入力としてN−gramにより語候補を切り出し、形態素解析結果と区切り位置が一致し、図6のリストに該当しない表記を複合語候補としてもよい。
The compound
このようにして、複合語候補を柔軟に抽出することで、従来の適合率の高いルールを適用して限定した候補を抽出する場合と比較して、複合語の抽出漏れを削減することができる。 In this way, by extracting compound word candidates flexibly, it is possible to reduce compound word extraction omissions as compared to the case where limited candidates are extracted by applying a rule with a high relevance ratio. .
なお、前述した説明では、音声認識システム49に音声認識用の辞書(構築済み辞書24e)への語彙の追加を支援する場合を例にしているが、本実施形態における語彙知識獲得装置10は、音声認識以外のシステムに用いられる辞書へ表記を追加する場合にも利用することができる。例えば、日本語入力システム(ワードプロセッサ)のかな漢字変換辞書や、インターネットで配信される情報(ブログ、マイクロブログ、企業発表情報)などを内容ごとに分類するための用語辞書を対象とすることもできる。
In the above description, the case where the
また、語彙知識獲得装置10は、日本語の表記だけでなく、他の言語の表記を対象とすることも可能である。
Moreover, the vocabulary
また、前述した説明では、Webサイトから取得されるWebクローリングデータ24dから未知語の読みを抽出しているが、その他の語彙知識獲得装置10の外部から取得されるデータを対象とすることも可能である。例えば、継続的にデータが更新されるデータベースシステムや、特定の電子機器に記録されたデータなどを、記録媒体あるいはネットワーク12を通じて取得して、語彙知識獲得処理に利用することが可能である。
In the above description, the unknown word reading is extracted from the
なお、実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。 The method described in the embodiment is a program that can be executed by a computer, such as a magnetic disk (flexible disk, hard disk, etc.), an optical disk (CD-ROM, DVD, etc.), a magneto-optical disk (MO), a semiconductor memory, etc. It can also be stored in a storage medium and distributed.
また、記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。 In addition, as long as the storage medium can store a program and can be read by a computer, the storage format may be any form.
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。 In addition, an OS (operating system) running on a computer based on an instruction of a program installed in the computer from a storage medium, MW (middleware) such as database management software, network software, and the like realize the above-described embodiment. A part of each process may be executed.
さらに、実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。 Furthermore, the storage medium in the embodiment is not limited to a medium independent of the computer, but also includes a storage medium in which a program transmitted via a LAN, the Internet, or the like is downloaded and stored or temporarily stored.
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。 Further, the number of storage media is not limited to one, and the case where the processing in each of the above embodiments is executed from a plurality of media is also included in the storage media in the present invention, and the media configuration may be any configuration.
なお、実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、実施形態における各処理を実行するものであって、パーソナルコンピュータ等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。 The computer in the embodiment executes each process in the embodiment based on a program stored in a storage medium. The computer includes a single device such as a personal computer, and a system in which a plurality of devices are connected to a network. Any configuration may be used.
また、実施形態におけるコンピュータとは、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。 In addition, the computer in the embodiment includes an arithmetic processing device, a microcomputer, and the like included in the information processing device, and is a generic term for devices and devices that can realize the functions of the present invention by a program.
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 In addition, although some embodiment of this invention was described, these embodiment is shown as an example and is not intending limiting the range of invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
10…語彙知識獲得装置、12…ネットワーク、14…Webサーバ、20…プロセッサ、21…メモリ、21a…語彙知識獲得プログラム、21b…音声認識プログラム、24…記憶装置、24a…平文コーパス、24b…正式名称リスト、24c…日英機械翻訳辞書、24d…Webクローリング、24e…構築済み辞書、24f…仮構築辞書、24g…語彙リスト、25…入力ユニット、26…表示ユニット、27…音声入力ユニット、28…音声出力ユニット、29…通信ユニット、41…形態素解析機能、42…複合語抽出機能、43…未知語抽出機能、44…未知語関連情報付与機能、45…略称推定機能、46…正式表記候補付与機能、47…結果出力機能、48…辞書編集機能、48…音声認識システム。
DESCRIPTION OF
Claims (8)
前記形態素解析の結果をもとに複合語を抽出する複合語抽出手段と、
前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出する未知語抽出手段と、
前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与する未知語関連情報付与手段と、
複合語から略称を生成する略称推定手段と、
前記略称推定手段により生成された略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与する正式表記候補付与手段と、
前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、辞書追加登録効果の高い順に並べて語彙リストとして出力する結果出力手段とを有する語彙知識獲得装置。 A morpheme analysis means for dividing a text contained in a plaintext corpus into words and adding a part of speech to each word;
Compound word extraction means for extracting a compound word based on the result of the morphological analysis;
An unknown word extraction means for comparing the word obtained by the morphological analysis and the compound word obtained by the compound word extraction with a registered word of the constructed dictionary and extracting an unknown word not registered in the constructed dictionary;
Extracting candidate readings for the unknown word from data acquired from the outside, and adding unknown word related information giving means to the unknown word as unknown word related information;
Abbreviation estimation means for generating abbreviations from compound words;
When the abbreviation generated by the abbreviation estimation means matches the unknown word, a formal notation candidate giving means for giving the unknown word as a formal notation candidate as a formal word candidate,
A vocabulary knowledge acquisition device comprising: a result output means for combining the unknown word, the unknown word related information, and the formal notation candidates, and arranging them in the order of high dictionary addition registration effect and outputting the result as a vocabulary list.
前記未知語関連情報として、前記未知語に対して、推定される品詞、出現頻度、Webクローリングデータから抽出した読み・スニペット・情報源、読み・表記・品詞が類似する構築済み辞書登録語、類似登録語の使用頻度、辞書の登録語の追加削除を行った場合の解析結果の差分の情報の少なくとも1つを抽出して付与する請求項1記載の語彙知識獲得装置。 The unknown word related information giving means is
As the unknown word related information, presumed part-of-speech, appearance frequency, reading / snippet / information source extracted from Web crawling data, constructed dictionary registered words with similar reading / notation / part of speech, similar to the unknown word The vocabulary knowledge acquisition apparatus according to claim 1, wherein at least one of information on the difference between the analysis results when the registered word usage frequency and the registered words in the dictionary are added and deleted is added and extracted.
Webサイトの信頼性評価リストを備え、
前記Webクローリングデータから抽出した読み・スニペットの情報を付与する際に、前記信頼性評価リストに設定されたWebサイトの評価値に基づいて情報を選択する請求項2記載の語彙知識獲得装置。 The unknown word related information giving means is
It has a website reliability evaluation list,
The vocabulary knowledge acquisition apparatus according to claim 2, wherein when adding reading / snippet information extracted from the Web crawling data, information is selected based on an evaluation value of a Web site set in the reliability evaluation list.
前記形態素解析の結果から、複合語を構成する可能性のある品詞が隣接して現れる部分の組み合わせの全てを複合語候補として抽出する請求項1記載の語彙知識獲得装置。 The compound word extraction means includes
The lexical knowledge acquisition apparatus according to claim 1, wherein from the result of the morphological analysis, all combinations of parts in which parts of speech that may constitute a compound word appear adjacently are extracted as compound word candidates.
前記未知語関連情報付与手段は、解析結果の差分の情報を前記未知語に付与する請求項1記載の語彙知識獲得装置。 Further comprising dictionary editing means for acquiring information on the difference between analysis results using the constructed dictionary before and after adding unknown words included in the vocabulary list to the constructed dictionary;
The vocabulary knowledge acquisition apparatus according to claim 1, wherein the unknown word related information adding unit adds difference information of analysis results to the unknown word.
前記形態素解析の結果をもとに複合語を抽出し、
前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出し、
前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与し、
複合語から略称を生成し、
前記略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与し、
前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、辞書追加登録効果の高い順に並べて語彙リストとして出力する語彙知識獲得方法。 Divide the text contained in the plaintext corpus into words, and perform morphological analysis to give parts of speech to each word,
Extract compound words based on the results of the morphological analysis,
Compare the word obtained by the morphological analysis and the compound word obtained by compound word extraction with the registered word of the constructed dictionary, and extract the unknown word that is not registered in the constructed dictionary,
Extracting candidate readings for the unknown word from data acquired from the outside, and giving the unknown word as unknown word related information,
Generate abbreviations from compound words,
When the abbreviation and the unknown word match, give the compound word as a formal notation candidate as the formal word candidate to the unknown word,
A vocabulary knowledge acquisition method of combining the unknown word, the unknown word related information, and the formal notation candidates, and arranging them in the order of high dictionary addition registration effect and outputting as a vocabulary list.
平文コーパスに含まれるテキストを単語に分割して、各単語に品詞を付与する形態素解析をする形態素解析手段と、
前記形態素解析の結果をもとに複合語を抽出する複合語抽出手段と、
前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出する未知語抽出手段と、
前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与する未知語関連情報付与手段と、
複合語から略称を生成する略称推定手段と、
前記略称推定手段により生成された略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与する正式表記候補付与手段と、
前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、辞書追加登録効果の高い順に並べて語彙リストとして出力する結果出力手段として機能させるための語彙知識獲得プログラム。 Computer
A morpheme analysis means for dividing a text contained in a plaintext corpus into words and adding a part of speech to each word;
Compound word extraction means for extracting a compound word based on the result of the morphological analysis;
An unknown word extraction means for comparing the word obtained by the morphological analysis and the compound word obtained by the compound word extraction with a registered word of the constructed dictionary and extracting an unknown word not registered in the constructed dictionary;
Extracting candidate readings for the unknown word from data acquired from the outside, and adding unknown word related information giving means to the unknown word as unknown word related information;
Abbreviation estimation means for generating abbreviations from compound words;
When the abbreviation generated by the abbreviation estimation means matches the unknown word, a formal notation candidate giving means for giving the unknown word as a formal notation candidate as a formal word candidate,
A vocabulary knowledge acquisition program for functioning as a result output means for combining the unknown word, the unknown word related information, and the formal notation candidates and arranging them as a vocabulary list in order from the highest dictionary addition registration effect.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015044661A JP6584795B2 (en) | 2015-03-06 | 2015-03-06 | Vocabulary knowledge acquisition device, vocabulary knowledge acquisition method, and vocabulary knowledge acquisition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015044661A JP6584795B2 (en) | 2015-03-06 | 2015-03-06 | Vocabulary knowledge acquisition device, vocabulary knowledge acquisition method, and vocabulary knowledge acquisition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016164724A true JP2016164724A (en) | 2016-09-08 |
JP6584795B2 JP6584795B2 (en) | 2019-10-02 |
Family
ID=56876655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015044661A Expired - Fee Related JP6584795B2 (en) | 2015-03-06 | 2015-03-06 | Vocabulary knowledge acquisition device, vocabulary knowledge acquisition method, and vocabulary knowledge acquisition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6584795B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018067193A (en) * | 2016-10-20 | 2018-04-26 | ヤフー株式会社 | Extraction device, extraction method, and extraction program |
WO2019168392A1 (en) * | 2018-03-02 | 2019-09-06 | Samsung Electronics Co., Ltd. | Electronic apparatus, controlling method and computer-readable medium |
KR20190109868A (en) * | 2018-03-19 | 2019-09-27 | 삼성전자주식회사 | System and control method of system for processing sound data |
CN111339250A (en) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | Mining method of new category label, electronic equipment and computer readable medium |
WO2020203276A1 (en) * | 2019-03-29 | 2020-10-08 | 日本電信電話株式会社 | New word candidate extraction device, new word candidate extraction method, and program |
CN116702786A (en) * | 2023-08-04 | 2023-09-05 | 山东大学 | Chinese professional term extraction method and system integrating rules and statistical features |
JP7425171B2 (en) | 2019-03-26 | 2024-01-30 | 株式会社ゼンリンデータコム | Information processing device, method for providing maps, and computer program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319884A (en) * | 1994-05-25 | 1995-12-08 | Hitachi Ltd | Synonym generation system |
JPH11134334A (en) * | 1997-10-29 | 1999-05-21 | Fujitsu Ltd | Word registering device and recording medium |
JPH11328166A (en) * | 1998-05-15 | 1999-11-30 | Brother Ind Ltd | Character input device and computer-readable recording medium where character input processing program is recorded |
JP2012003317A (en) * | 2010-06-14 | 2012-01-05 | Ntt Docomo Inc | Pronunciation presuming device, pronunciation presuming method and pronunciation presuming program |
-
2015
- 2015-03-06 JP JP2015044661A patent/JP6584795B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319884A (en) * | 1994-05-25 | 1995-12-08 | Hitachi Ltd | Synonym generation system |
JPH11134334A (en) * | 1997-10-29 | 1999-05-21 | Fujitsu Ltd | Word registering device and recording medium |
JPH11328166A (en) * | 1998-05-15 | 1999-11-30 | Brother Ind Ltd | Character input device and computer-readable recording medium where character input processing program is recorded |
JP2012003317A (en) * | 2010-06-14 | 2012-01-05 | Ntt Docomo Inc | Pronunciation presuming device, pronunciation presuming method and pronunciation presuming program |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018067193A (en) * | 2016-10-20 | 2018-04-26 | ヤフー株式会社 | Extraction device, extraction method, and extraction program |
WO2019168392A1 (en) * | 2018-03-02 | 2019-09-06 | Samsung Electronics Co., Ltd. | Electronic apparatus, controlling method and computer-readable medium |
KR20190104773A (en) * | 2018-03-02 | 2019-09-11 | 삼성전자주식회사 | Electronic apparatus, controlling method and computer-readable medium |
KR102662571B1 (en) * | 2018-03-02 | 2024-05-07 | 삼성전자주식회사 | Electronic apparatus, controlling method and computer-readable medium |
US11107459B2 (en) | 2018-03-02 | 2021-08-31 | Samsung Electronics Co., Ltd. | Electronic apparatus, controlling method and computer-readable medium |
KR20190109868A (en) * | 2018-03-19 | 2019-09-27 | 삼성전자주식회사 | System and control method of system for processing sound data |
KR102635811B1 (en) | 2018-03-19 | 2024-02-13 | 삼성전자 주식회사 | System and control method of system for processing sound data |
JP7425171B2 (en) | 2019-03-26 | 2024-01-30 | 株式会社ゼンリンデータコム | Information processing device, method for providing maps, and computer program |
WO2020203276A1 (en) * | 2019-03-29 | 2020-10-08 | 日本電信電話株式会社 | New word candidate extraction device, new word candidate extraction method, and program |
JP7289330B2 (en) | 2020-02-20 | 2023-06-09 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Novel category tag mining method and apparatus, electronic device, computer readable medium, and computer program product |
US11755654B2 (en) | 2020-02-20 | 2023-09-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Category tag mining method, electronic device and non-transitory computer-readable storage medium |
CN111339250B (en) * | 2020-02-20 | 2023-08-18 | 北京百度网讯科技有限公司 | Mining method for new category labels, electronic equipment and computer readable medium |
JP2021131862A (en) * | 2020-02-20 | 2021-09-09 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | Discovering method and device for new category tag, electronic device, computer readable medium, and computer program product |
CN111339250A (en) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | Mining method of new category label, electronic equipment and computer readable medium |
CN116702786A (en) * | 2023-08-04 | 2023-09-05 | 山东大学 | Chinese professional term extraction method and system integrating rules and statistical features |
CN116702786B (en) * | 2023-08-04 | 2023-11-17 | 山东大学 | Chinese professional term extraction method and system integrating rules and statistical features |
Also Published As
Publication number | Publication date |
---|---|
JP6584795B2 (en) | 2019-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6584795B2 (en) | Vocabulary knowledge acquisition device, vocabulary knowledge acquisition method, and vocabulary knowledge acquisition program | |
Schäfer et al. | Web corpus construction | |
US9672206B2 (en) | Apparatus, system and method for application-specific and customizable semantic similarity measurement | |
Tratz et al. | A fast, accurate, non-projective, semantically-enriched parser | |
Spasić et al. | FlexiTerm: a flexible term recognition method | |
JP2006252382A (en) | Question answering system, data retrieval method and computer program | |
JP2008522332A (en) | System and method for automatically expanding documents | |
WO2005059771A1 (en) | Translation judgment device, method, and program | |
US20170286408A1 (en) | Sentence creation system | |
Sezer | TS corpus project: An online Turkish dictionary and TS DIY corpus | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
Aksyonoff | Introduction to Search with Sphinx: From installation to relevance tuning | |
Trost et al. | The language component of the FASTY text prediction system | |
Erjavec et al. | A web corpus and word sketches for Japanese | |
Fatima et al. | STEMUR: An automated word conflation algorithm for the Urdu language | |
Paikens | Lexicon-based morphological analysis of Latvian language | |
Radoev et al. | AMAL: answering french natural language questions using DBpedia | |
Cosijn et al. | Information access in indigenous languages: a case study in Zulu | |
Wu et al. | Parsing-based Chinese word segmentation integrating morphological and syntactic information | |
JP5499546B2 (en) | Important word extraction method, apparatus, program, recording medium | |
Sweetnam et al. | Natural language processing and early-modern dirty data: applying IBM Languageware to the 1641 depositions | |
Reinel et al. | Sentiment phrase generation using statistical methods | |
Plu et al. | Revealing entities from textual documents using a hybrid approach | |
Yasukawa et al. | Stemming Malay text and its application in automatic text categorization | |
Srdanovic et al. | A web corpus and word sketches for Japanese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180914 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190524 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20190603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6584795 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |