JP6427466B2 - 同義語ペア獲得装置、方法、及びプログラム - Google Patents

同義語ペア獲得装置、方法、及びプログラム Download PDF

Info

Publication number
JP6427466B2
JP6427466B2 JP2015106871A JP2015106871A JP6427466B2 JP 6427466 B2 JP6427466 B2 JP 6427466B2 JP 2015106871 A JP2015106871 A JP 2015106871A JP 2015106871 A JP2015106871 A JP 2015106871A JP 6427466 B2 JP6427466 B2 JP 6427466B2
Authority
JP
Japan
Prior art keywords
word
candidate
word division
division
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015106871A
Other languages
English (en)
Other versions
JP2016224482A (ja
Inventor
いつみ 斉藤
いつみ 斉藤
九月 貞光
九月 貞光
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015106871A priority Critical patent/JP6427466B2/ja
Publication of JP2016224482A publication Critical patent/JP2016224482A/ja
Application granted granted Critical
Publication of JP6427466B2 publication Critical patent/JP6427466B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、同義語ペア獲得装置、方法、及びプログラムに係り、特に、同義語ペアを獲得するための同義語ペア獲得装置、方法、及びプログラムに関する。
従来より、正規表記語に対して揺らいだ表記である崩れ表記語を獲得するための手法が提案されている。教師データを用いた手法としては、非特許文献1及び非特許文献2に記載されている手法が挙げられる。
教師データを用いない手法としては、非特許文献3及び非特許文献4に記載されている手法が挙げられる。
岡崎直観, 辻井潤一,"アライメント識別モデルを用いた略語定義の自動獲得". 言語処理学会第14回年次大会 (NLP2008), pp. 139-142 藤沼祥成, 横野光, 相澤彰子,"Twitter(R)上の「おはよう」を例とした崩れた表記の検出と分析." 第27 回人工知能学会全国大会, 2013.06 増山毅司, 関根聡,"大規模コーパスからのカタカナ語の表記の揺れリストの自動構築",言語処理学会第14回年次大会 (NLP2004) 池田和史,柳原正,松本一則,滝嶋康弘,"くだけた表現を高精度に解析するための正規化ルール自動生成手法",情報処理学会論文誌,vol3. No.3 pp.68-77, 2010 Kudo,T., Japanese Morphological Analyzer,インターネット<URL:http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html>
しかし、非特許文献1及び非特許文献2に記載の教師データを用いた手法により崩れ表記語を抽出する場合、Webデータから、図7のような正解ペアを人手で作成する必要があり、正解ペアの生成コストが高いという課題がある。
また、教師データを用いない手法に基づく場合、獲得候補となる崩れ語の候補が限られた候補(カタカナ語,既存解析器で未知語となった語等)に限られており、多様な崩れ表記を獲得することができないという課題がある。これは、既存解析器では崩れ表記語は誤って解析されてしまうことが多く、多様な崩れ表記語を獲得することが困難なためである。なぜならば、日本語は単語間にスペースなどの区切りが存在しないため、一般に存在するテキストにおいては形態素の正しい区切り位置を解析することが困難である。また、Web上には、ひらがなや漢字とひらがな、カタカナとひらがな等で書かれる崩れ表記語が多数存在しており、解析が困難である。例えば、「すげー」、「やば」、「さみい」、「サムい」、「寒っ」等である。また、図8に非特許文献5に記載のMecab(IPAdic)を用いて崩れ表記語を含む文を解析した結果の一例を示す。
本発明は、上記問題点を解決するために成されたものであり、効率よく、同義語ペアを獲得することができる同義語ペア獲得装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る同義語ペア獲得装置は、文書から、正規表記語、又は前記正規表記語に対して揺らいだ表記の候補である崩れ表記語である複数の単語分割候補を生成する単語分割候補生成部と、前記単語分割候補生成部により生成された前記複数の単語分割候補に基づいて、前記複数の単語分割候補の各々について、単語の意味ベクトルを計算する意味ベクトル計算部と、正規表記語である前記単語分割候補の各々について、前記意味ベクトルに基づいて計算される意味類似度と、単語の読みに基づいて計算される音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得する同義語ペア獲得部と、を含んで構成されている。
また、第1の発明に係る同義語ペア獲得装置において、前記同義語ペア獲得部は、正規表記語である前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得し、選択された前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得するようにしてもよい。
第2の発明に係る同義語ペア獲得方法は、単語分割候補生成部が、文書から、正規表記語、又は前記正規表記語に対して揺らいだ表記の候補である崩れ表記語である複数の単語分割候補を生成するステップと、意味ベクトル計算部が、前記単語分割候補生成部により生成された前記複数の単語分割候補に基づいて、前記複数の単語分割候補の各々について、単語の意味ベクトルを計算するステップと、同義語ペア獲得部が、正規表記語である前記単語分割候補の各々について、前記意味ベクトルに基づいて計算される意味類似度と、単語の読みに基づいて計算される音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得するステップと、を含んで実行することを特徴とする。
また、第2の発明に係る同義語ペア獲得方法は、前記同義語ペア獲得部が獲得するステップは、正規表記語である前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得し、選択された前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得するようにしてもよい。
第3の発明に係るプログラムは、第1の発明に係る同義語ペア獲得装置の各部として機能させるためのプログラムである。
本発明の同義語ペア獲得装置、方法、及びプログラムによれば、文書から、正規表記語、又は崩れ表記語である複数の単語分割候補を生成し、複数の単語分割候補に基づいて、複数の単語分割候補の各々について、単語の意味ベクトルを計算し、正規表記語である単語分割候補の各々について、意味ベクトルに基づいて計算される意味類似度と、単語の読みに基づいて計算される音類似度とに基づいて、単語分割候補を、複数の単語分割候補から選択し、正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得することにより、効率よく、同義語ペアを獲得することができる、という効果が得られる。
本発明の実施の形態に係る同義語ペア獲得装置の構成を示すブロック図である。 音類似度の一例を示す図である。 同義語ペアの獲得の例を示す概念図である。 正規表記語を起点として単語分割候補を選択する例を示す図である。 選択された単語分割候補を起点として更に単語分割候補を選択する例を示す図である。 本発明の実施の形態に係る同義語ペア獲得装置における同義語ペア獲得処理ルーチンを示すフローチャートである。 正規表記語及び崩れ表記語の組み合わせの一例を示す図である。 Mecabを用いて崩れ表記語を含む文を解析した結果の一例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る同義語ペア獲得装置の構成>
次に、本発明の実施の形態に係る同義語ペア獲得装置の構成について説明する。図1に示すように、本発明の実施の形態に係る同義語ペア獲得装置100は、CPUと、RAMと、後述する同義語ペア獲得処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この同義語ペア獲得装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、崩れ表記語を含む文書からなる文書集合を受け付ける。
演算部20は、辞書データベース28と、単語分割候補生成部30と、意味ベクトル計算部32と、同義語ペア獲得部34とを含んで構成されている。
辞書データベース28には、辞書引きを行うために必要な辞書(読み、表記、品詞)が記憶されている。
単語分割候補生成部30は、入力部10により受け付けた文書集合の文書の各々から、正規表記語、又は正規表記語に対して揺らいだ表記の候補である崩れ表記語である複数の単語分割候補を生成する。
単語分割候補生成部30は、具体的には、文書に対して、既存の単語分割手法である以下の第1の手法から第3の手法の各々を適用して単語分割候補を生成する。この際、辞書データベース28に存在しない崩れ表記語についても区切り候補として出力できるような手法を用いる。
単語分割候補生成部30は、文書集合に含まれる文書の各々に対して、第1の手法として、点推定を用いた単語分割手法を適用して単語分割候補の生成を行う。点推定を用いた単語分割手法では、文字ngram、文字種ngram等を素性とした文字間の区切りモデルを用いて、文書を複数の単語分割候補に分割する。
単語分割候補生成部30は、文書集合に対して、第2の手法として、教師なし解析を用いた単語分割手法を適用して、単語分割候補の生成を行う。教師なし解析を用いた単語分割手法では、サンプリングした単語分割候補に対して出現頻度等を算出し、目的関数が最適化されるように、文書の各々を単語分割候補に分割する。
単語分割候補生成部30は、文書集合に含まれる文書の各々に対して、第3の手法として、Mecab等による解析結果を取得し、あらかじめ定めたルールを元に一部結合させた単語分割候補の生成を行う。ルールとしては、例えば、未知語連続は結合する、名詞連続は結合する等である。なお、ルールとして以下の方法を用いてもよい。例えば、Twitter(R)等から短い文を切り出して、単語分割候補とする場合には、短い文の切り出しは、複数の区切り文字(例えば、改行、記号的表現(「!」,「w」,「♪」)、句読点(「、」,「。」)など)を設定し、短い文を区切り文字で分割するようにすればよい。このように設定することで、例えば「やっべぇぇwwwwwwwwwww」という文であれば、「w」以前の「やっべぇぇ」を単語分割候補として取得できる。また、「おっはよお♪ ってお昼だけど・・・ 今起きた・・・」という文であれば、「♪」以前の「おっはよお」が単語分割候補として取得できる。上記のようにして取得した文字数がn文字以下の文字列を形態素辞書に追加して解析を行うようにしてもよい。
意味ベクトル計算部32は、単語分割候補生成部30により生成された複数の単語分割候補に基づいて、複数の単語分割候補の各々について、単語の意味ベクトルを計算する。
意味ベクトル計算部32は、具体的には、単語分割候補生成部30により生成された複数の単語分割候補を列挙するように、単語区切りが付与された文書集合に対し、単語分割候補として出現した各単語の意味ベクトルを計算する。この際、各単語の意味ベクトルを求める手法としては既存の手法を用いることができる。例えば、非特許文献6に記載のword2vec等が代表的な手法として挙げられる。
[非特許文献6]:Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
同義語ペア獲得部34は、正規表記語である単語分割候補の各々について、意味ベクトルに基づいて計算される意味類似度が閾値以上であって、かつ、単語の読みに基づいて計算される音類似度が閾値以上となる、単語分割候補を、複数の単語分割候補から選択し、正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得する。同義語ペア獲得部34は、更に、選択された単語分割候補の各々について、意味ベクトルに基づいて計算される意味類似度が閾値以上であって、かつ、単語の読みに基づいて計算される音類似度が閾値以上となる、単語分割候補を、複数の単語分割候補から選択し、正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得する。図3に同義語ペア獲得部34の処理の概念図を示す。
同義語ペア獲得部34は、具体的には、まず正規表記語である単語分割候補の各々について、他の単語分割候補の各々との意味類似度の計算を行う。意味類似度は、意味ベクトル計算部32において求めた単語ごとの意味ベクトルのコサイン類似度を用いて計算する。
同義語ペア獲得部34は、次に、正規表記語である単語分割候補の各々について、他の単語分割候補との音類似度の計算を行う。本実施の形態では、音類似度として、音類似度距離を、単語分割候補の読みに基づいて計算する。ここで、漢字表記は読み推定を行い、カタカナ表記はひらがなに変換する。変換コストは次のように設定する。同一文字の変換コストは0とする。また、母音(小文字も含む(例:ぁ,ぃ,ぅ,ぇ,ぉ))、促音(っ)、撥音(ん)、長音の削除はコスト0とする。ただし、単語の先頭における削除はコスト1として音類似度距離をカウントアップする。また、同行又は同列(日本語ひらがな50音表の同行又は同列を指す。濁音又は半濁音は濁音化又は半濁音化する前の文字と同一の位置として考える)文字の置換、母音-促音間の置換、母音‐長音間、母音‐母音間の変換はコスト0とする。例えば、「ぶ」又は「ぷ」→「ふ」というような同行又は同列の文字列(はひふへほうくすつぬむゆる)をコスト0とする。上記以外の変換はコスト1として音類似度距離をカウントアップする。図2に音類似度距離の計算例を示す。本実施の形態では、閾値以上の音類似度のものをフィルタリングするため、音類似度距離が閾値以下のものがフィルタリングされる。
次に、同義語ペア獲得部34は、文書集合から得られた正規表記語の単語分割候補の各々について、以下に説明する第1の獲得処理及び第2の獲得処理を行って、同義語ペアを獲得する。同義語ペア獲得部34の第1の獲得処理では、文書集合から得られた正規表記語の単語分割候補の各々について、以下の処理を行う。
まず、当該正規表記語の単語分割候補について、文書集合中に現れた他の単語分割候補から、他の単語分割候補との間の意味類似度が予め定めた閾値以上である単語分割候補をフィルタリングする。次に、フィルタリングされた単語分割候補から、当該正規表記語について、他の単語分割候補との音類似度が予め定めた閾値以上(音類似度距離が閾値以下)となる単語分割候補をフィルタリングする。更に、フィルタリングされた単語分割候補から、辞書データベース28において、当該単語分割候補の表記が辞書中の正規表記語として存在し、かつ辞書中の当該正規表記語の品詞と同一の品詞であるものを削除する。そして、同義語ペア獲得部34は、削除後の単語分割候補を選択する。このようにして、当該正規表記語の単語分割候補と選択した単語分割候補とのペアを、同義語ペアとして獲得とする。図4に第1の獲得処理の一例を示す。図4では、正規表記語の単語分割候補「さむい」を起点として単語分割候補を選択している。
次に、同義語ペア獲得部34は、当該正規表記語の単語分割候補について、以下のように、上記の第1の獲得処理で当該正規表記語の単語分割候補について同義語ペアとして選択された単語分割候補を起点とした、第2の獲得処理を行う。まず、上記の第1の獲得処理で当該正規表記語の単語分割候補について同義語ペアとして選択された単語分割候補の各々について、他の単語分割候補との間の意味類似度の計算、及び音類似度距離の計算を行う。次に、当該正規表記語の単語分割候補について同義語ペアとして選択された単語分割候補の各々について、以下の処理を行う。
当該単語分割候補について、文書集合中に現れた他の単語分割候補の各々との間の意味類似度が予め定めた閾値以上である単語分割候補をフィルタリングする。次に、フィルタリングされた単語分割候補から、当該単語分割候補との音類似度距離が予め定めた閾値以下となる単語分割候補をフィルタリングする。更に、フィルタリングされた単語分割候補から、辞書データベース28において、単語分割候補の表記が辞書中の正規表記語として存在し、かつ辞書中の当該正規表記語の品詞と同一の品詞であるものを削除する。そして、同義語ペア獲得部34は、削除後の単語分割候補を選択する。このようにして、当該正規表記語の単語分割候補と選択した単語分割候補とのペアを、同義語ペアとして獲得とする。図5に第2の獲得処理の一例を示す。図5では、第1の獲得処理で正規表記語の単語分割候補「さむい」に対して選択された単語分割候補「さみぃ」を起点として単語分割候補を選択している。更に、同義語ペア獲得部34は、上記第2の獲得処理で選択された単語分割候補を起点として、上記第2の獲得処理と同じ処理を予め定めた回数繰り返し、当該正規表記語の単語分割候補と選択した単語分割候補とのペアを、同義語ペアとして獲得する。
<本発明の実施の形態に係る同義語ペア獲得装置の作用>
次に、本発明の実施の形態に係る同義語ペア獲得装置100の作用について説明する。入力部10において崩れ表記語を含む文書からなる文書集合を受け付けると、同義語ペア獲得装置100は、図6に示す同義語ペア獲得処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた文書集合の文書の各々から複数の単語分割候補を生成する。
次に、ステップS102では、ステップS100で生成された複数の単語分割候補に基づいて、単語分割候補の各々について、単語の意味ベクトルを計算する。
ステップS104では、ステップS100で生成された正規表記語である単語分割候補の各々について、ステップS102で計算された意味ベクトルに基づいて、他の単語分割候補の各々との意味類似度を計算する。
ステップS106では、ステップS100で生成された正規表記語である単語分割候補の各々について、単語分割候補の読みに基づいて他の単語分割候補の各々との音類似度距離を計算する。
ステップS108では、正規表記語である単語分割候補の各々について、ステップS104で計算された意味類似度が閾値以上であって、かつ、ステップS106で計算された音類似度距離が閾値以下となる、単語分割候補を、複数の単語分割候補から選択し、正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得する。
ステップS110では、正規表記語である単語分割候補の各々に対し、ステップS108又は前回のステップS110で選択された単語分割候補の各々について、ステップS104と同様に計算される意味類似度が閾値以上であって、かつ、ステップS106と同様に計算される音類似度距離が閾値以下となる、単語分割候補を、複数の単語分割候補から選択し、当該正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得する。
ステップS112では、ステップS110の処理を予め定めた回数繰り返したかを判定し、繰り返していればステップS114へ移行し、繰り返していなければステップS110へ戻って処理を繰り返す。
ステップS114では、ステップS108及びステップS110で獲得された同義語ペアを出力部50に出力して処理を終了する。
以上説明したように、本発明の実施の形態に係る同義語ペア獲得装置によれば、文書から、正規表記語、又は崩れ表記語である複数の単語分割候補を生成し、複数の単語分割候補に基づいて、複数の単語分割候補の各々について、単語の意味ベクトルを計算し、正規表記語である単語分割候補の各々について、意味ベクトルに基づいて計算される意味類似度が閾値以上であって、かつ、単語の読みに基づいて計算される音類似度距離が閾値以下となる、単語分割候補を、複数の単語分割候補から選択し、正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得することにより、効率よく、同義語ペアを獲得することができる。
また、意味類似度と音類似度の双方を考慮することにより、精度よく同義候補のペアを獲得することができる。
また、正規表記語を起点とした獲得だけではフィルタされてしまった単語分割候補に対しても、選択された単語分割候補を起点として新たな同義語ペアを獲得することでより多様な崩れ表記語を獲得することが可能になる。
また、従来手法に比べ、多様な崩れ表記語の正しい区切りとして単語分割候補を生成することが可能になる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 入力部
20 演算部
28 辞書データベース
30 単語分割候補生成部
32 意味ベクトル計算部
34 同義語ペア獲得部
50 出力部
100 同義語ペア獲得装置

Claims (5)

  1. 文書から、正規表記語である単語分割候補、及び前記正規表記語に対して揺らいだ表記の候補である崩れ表記語である単語分割候補を含む複数の単語分割候補を生成する単語分割候補生成部と、
    前記単語分割候補生成部により生成された前記複数の単語分割候補に基づいて、前記複数の単語分割候補の各々について、単語の意味ベクトルを計算する意味ベクトル計算部と、
    正規表記語である前記単語分割候補の各々について、前記意味ベクトルに基づいて計算される意味類似度と、単語の読みに基づいて計算される音類似度とに基づいて、前記複数の単語分割候補をフィルタリングし、フィルタリングされた前記複数の単語分割候補から、予め定められた前記正規表記語と同一の表記であって、前記同一の表記の前記正規表記語と同一の品詞である前記単語分割候補を除いて選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得する同義語ペア獲得部と、
    を含む同義語ペア獲得装置。
  2. 前記同義語ペア獲得部は、
    択された前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記複数の単語分割候補をフィルタリングし、フィルタリングされた前記複数の単語分割候補から、予め定められた前記正規表記語と同一の表記であって、前記同一の表記の前記正規表記語と同一の品詞である前記単語分割候補を除いて更に選択し、正規表記語である前記単語分割候補と、更に選択された前記単語分割候補とのペアを、同義語ペアとして獲得する請求項1に記載の同義語ペア獲得装置。
  3. 単語分割候補生成部が、文書から、正規表記語である単語分割候補、及び前記正規表記語に対して揺らいだ表記の候補である崩れ表記語である単語分割候補を含む複数の単語分割候補を生成するステップと、
    意味ベクトル計算部が、前記単語分割候補生成部により生成された前記複数の単語分割候補に基づいて、前記複数の単語分割候補の各々について、単語の意味ベクトルを計算するステップと、
    同義語ペア獲得部が、正規表記語である前記単語分割候補の各々について、前記意味ベクトルに基づいて計算される意味類似度と、単語の読みに基づいて計算される音類似度とに基づいて、前記複数の単語分割候補をフィルタリングし、フィルタリングされた前記複数の単語分割候補から、予め定められた前記正規表記語と同一の表記であって、前記同一の表記の前記正規表記語と同一の品詞である前記単語分割候補を除いて選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得するステップと、
    を含む同義語ペア獲得方法。
  4. 前記同義語ペア獲得部が獲得するステップは、
    択された前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記複数の単語分割候補をフィルタリングし、フィルタリングされた前記複数の単語分割候補から、予め定められた前記正規表記語と同一の表記であって、前記同一の表記の前記正規表記語と同一の品詞である前記単語分割候補を除いて更に選択し、正規表記語である前記単語分割候補と、更に選択された前記単語分割候補とのペアを、同義語ペアとして獲得する請求項3に記載の同義語ペア獲得方法。
  5. コンピュータを、請求項1又は請求項2に記載の同義語ペア獲得装置の各部として機能させるためのプログラム。
JP2015106871A 2015-05-26 2015-05-26 同義語ペア獲得装置、方法、及びプログラム Active JP6427466B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015106871A JP6427466B2 (ja) 2015-05-26 2015-05-26 同義語ペア獲得装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015106871A JP6427466B2 (ja) 2015-05-26 2015-05-26 同義語ペア獲得装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016224482A JP2016224482A (ja) 2016-12-28
JP6427466B2 true JP6427466B2 (ja) 2018-11-21

Family

ID=57746569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015106871A Active JP6427466B2 (ja) 2015-05-26 2015-05-26 同義語ペア獲得装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6427466B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11256869B2 (en) 2018-09-06 2022-02-22 Lg Electronics Inc. Word vector correction method
WO2020050706A1 (ko) * 2018-09-06 2020-03-12 엘지전자 주식회사 워드벡터 보정 방법
JP7323308B2 (ja) 2019-03-20 2023-08-08 株式会社Screenホールディングス 同義語判定方法、同義語判定プログラム、および、同義語判定装置
KR102189688B1 (ko) * 2019-04-22 2020-12-11 넷마블 주식회사 동의어 추출 방법
JP7457531B2 (ja) 2020-02-28 2024-03-28 株式会社Screenホールディングス 類似度算出装置、類似度算出プログラム、および、類似度算出方法
CN112579794B (zh) * 2020-12-25 2022-11-11 清华大学 一种为中英文单词对预测义原树的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222427A (ja) * 1999-02-02 2000-08-11 Mitsubishi Electric Corp 関連語抽出装置、関連語抽出方法及び関連語抽出プログラムが記録された記録媒体
JP2009176148A (ja) * 2008-01-25 2009-08-06 Nec Corp 未知語判定システム、方法及びプログラム
JP4245078B2 (ja) * 2008-08-04 2009-03-25 日本電気株式会社 同義語辞書作成支援システム、同義語辞書作成支援方法および同義語辞書作成支援プログラム

Also Published As

Publication number Publication date
JP2016224482A (ja) 2016-12-28

Similar Documents

Publication Publication Date Title
CN101002198B (zh) 用于非罗马字符和字的拼写校正系统和方法
JP6427466B2 (ja) 同義語ペア獲得装置、方法、及びプログラム
CN105095204B (zh) 同义词的获取方法及装置
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
Hamed et al. Building a first language model for code-switch Arabic-English
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
Aliero et al. Systematic review on text normalization techniques and its approach to non-standard words
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
US20160071511A1 (en) Method and apparatus of smart text reader for converting web page through text-to-speech
CN107102983B (zh) 一种基于网络知识源的中文概念的词向量表示方法
WO2019226406A1 (en) Dynamic extraction of contextually-coherent text blocks
JP6558863B2 (ja) モデル作成装置、推定装置、方法、及びプログラム
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
CN103744837B (zh) 基于关键词抽取的多文本对照方法
CN105512109A (zh) 新词汇的发现方法及装置
Sun et al. Syntactic parsing of web queries
CN112329478B (zh) 一种构建因果关系确定模型的方法、装置和设备
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
CN111259159A (zh) 数据挖掘方法、装置和计算机可读存储介质
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
WO2021221535A1 (ru) Система и способ аугментации обучающей выборки для алгоритмов машинного обучения
Suci et al. In-idris: Modification of idris stemming algorithm for indonesian text
CN115099214A (zh) 一种短文本相似度计算方法、系统及存储介质
KR20190009061A (ko) 문자 상표 검색 시스템 및 검색 서비스 제공 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181029

R150 Certificate of patent or registration of utility model

Ref document number: 6427466

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150