JP2018025956A - モデル作成装置、推定装置、方法、及びプログラム - Google Patents

モデル作成装置、推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018025956A
JP2018025956A JP2016157059A JP2016157059A JP2018025956A JP 2018025956 A JP2018025956 A JP 2018025956A JP 2016157059 A JP2016157059 A JP 2016157059A JP 2016157059 A JP2016157059 A JP 2016157059A JP 2018025956 A JP2018025956 A JP 2018025956A
Authority
JP
Japan
Prior art keywords
word
notation
pair
regular
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016157059A
Other languages
English (en)
Other versions
JP6558863B2 (ja
Inventor
いつみ 斉藤
Itsumi Saito
いつみ 斉藤
九月 貞光
Kugatsu Sadamitsu
九月 貞光
久子 浅野
Hisako Asano
久子 浅野
松尾 義博
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016157059A priority Critical patent/JP6558863B2/ja
Publication of JP2018025956A publication Critical patent/JP2018025956A/ja
Application granted granted Critical
Publication of JP6558863B2 publication Critical patent/JP6558863B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができる。【解決手段】単語分割部24が、崩れ表記語を含む複数のテキストの各々について、テキストから単語の分割候補を複数生成する。意味ベクトル計算部26が、生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。負例生成部22が、複数の正規表記語が格納された辞書21に基づいて、負例データを生成する。モデル作成部30が、正例データの各々について、正例データが表すペアの意味の類似度を表す意味類似度を含む素性と、負例データの各々について、負例データが表すペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する。【選択図】図3

Description

本発明は、モデル作成装置、推定装置、方法、及びプログラムに関する。
従来より、正規表記語に対して揺らいだ表記である崩れ表記語を獲得するための手法が提案されている。教師データを用いた手法としては、非特許文献1及び非特許文献2に記載されている手法が挙げられる。非特許文献1では、略語ペアの獲得が行われる。また、非特許文献2では、特定単語の崩れ表記の獲得が行われる。
教師データを用いない手法としては、非特許文献3及び非特許文献4に記載されている手法が挙げられる。非特許文献3では、カタカナ表記揺れの獲得が行われる。また、非特許文献4では、既存解析器の出力結果における未知語に着目した崩れ表記(正規化ルール)の獲得が行われる。非特許文献5に記載の技術では、意味類似度と音類似度に基づく同義語ペアの獲得が行われる。
岡崎直観, 辻井潤一,"アライメント識別モデルを用いた略語定義の自動獲得". 言語処理学会第14回年次大会(NLP2008), pp. 139-142 藤沼祥成, 横野光, 相澤彰子,"Twitter(R)上の「おはよう」を例とした崩れた表記の検出と分析." 第27 回人工知能学会全国大会, 2013.06 増山毅司, 関根聡,"大規模コーパスからのカタカナ語の表記の揺れリストの自動構築",言語処理学会第14回年次大会(NLP2004) 池田和史,柳原正,松本一則,滝嶋康弘,"くだけた表現を高精度に解析するための正規化ルール自動生成手法",情報処理学会論文誌,vol3. No.3 pp.68-77, 2010 斉藤,貞光,浅野,松尾,"web上のテキストからの表記揺れ語獲得",第22回言語処理学会年次大会予稿集
上記非特許文献5に記載の技術では、正規表記語と崩れ表記語との複数候補が列挙された文書集合から単語分割候補を複数取得し、得られた単語分割候補中に出現した正規表記語(辞書に存在する表記)と分割候補中に現れた崩れ表記語(辞書に存在しない表記)との間の意味類似度と音類似度とを計算しフィルタリングを行う。この場合、下記(1)、(2)が満たされるようにフィルタリングが行われる。
(1)正規表記語と崩れ表記語との意味類似度が予め定めた閾値以上であること
(2)正規表記語と崩れ表記語との音類似度が予め定めた閾値以上であること
なお、意味類似度は単語ごとの意味ベクトルのコサイン類似度を用いて計算される。また、音類似度距離は単語の読みに基づいて計算され、具体的には以下の(1)〜(3)に従って計算される。
(1)漢字表記は読み推定を行う
(2)カタカナ表記はひらがなに変換する
(3)コスト設定に基づいて音類似度が計算される。例えば、以下の(3−1)〜(3−4)に示すコスト設定例に応じて音類似度が計算される。
(3−1)同一文字の置換コストは0とする。
(3−2)母音、促音(っ)、撥音(ん)、長音の削除はコスト0とする。ただし、単語の先頭における削除はコスト1とする。
(3−3)同行・同列文字の置換、母音−促音間の置換、母音−長音間、母音−母音間の置換はコスト0とする。
(3−4)上記(3−1)〜(3−3)以外の変換はコスト1とする。
ただし、「母音」は、小文字も含む(ぁ,ぃ,ぅ,ぇ,ぉ)
また、「同行・同列」は、日本語ひらがな50音表の同行、同列を指す。濁音・半濁音は濁音・半濁音化する前の文字と同一の位置として考える(例えば、ぶ、ぷ→「ふ」と同行同列(はひふへほうくすつぬむゆる)の文字列をコスト0とする)。
しかし、上記説明した技術における、意味類似度及び音類似度の閾値を用いたフィルタ手法を用いる場合、多様な素性を用いて正規表記語と崩れ表記語とのペアの識別を行うことが難しく、略語やフレーズの高精度な識別が困難という問題がある。略語やフレーズの識別が困難である例を例1,2に示す。
例1:セブン−セブンイレブン(正しいペア)
音類似度:0.57、意味類似度:0.76
例2:うれしい−嬉しいなあ(正しくないペア)
音類似度:0.8、意味類似度:0.80
上記の例1、2に関しては、例2の方が音類似度、意味類似度がともに高いが、例1は正しいペア、例2は正しくないペアとして識別したい例である。
この場合、音類似度と意味類似度との閾値以外のルールを導入しなければ両者を正しく識別することはできない。しかし、個別の事例を見ながらルールを設定するのは高コストである。
本発明は、上記問題点を解決するために成されたものであり、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができるモデルを取得することができるモデル作成装置、方法、及びプログラムを提供することを目的とする。
また、本発明は、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができる推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係るモデル作成装置は、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算する意味ベクトル計算部と、複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成する負例生成部と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するモデル作成部と、を含んで構成されている。
第2の発明に係るモデル作成方法は、単語分割部、意味ベクトル計算部、負例生成部、及びモデル作成部を含むモデル作成装置におけるモデル作成方法であって、前記単語分割部が、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、前記意味ベクトル計算部が、前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算するステップと、前記負例生成部が、複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成するステップと、前記モデル作成部が、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するステップと、を含む。
第3の発明に係る推定装置は、複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部と、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、を含んで構成されている。
第4の発明に係る推定方法は、単語分割部、意味ベクトル計算部、推定部、及び複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部を含む推定装置における推定方法であって、前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、前記推定部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、を含む。
第5の発明に係る推定装置は、複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部と、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するランダムウォーク部と、前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、を含んで構成されている。
第6の発明に係る推定方法は、単語分割部、意味ベクトル計算部、ランダムウォーク部、推定部、及び複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部を含む推定装置における推定方法であって、前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、前記ランダムウォーク部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するステップと、前記推定部が、前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、を含む。
また、前記負例データは、前記辞書に格納された正規表記語と、該正規表記語とは異なる正規表記語とのペア、前記辞書に格納された活用形をもつ正規表記語と、該正規表記語の活用形とは異なる活用形の正規表記語とのペア、及び前記辞書からランダムに選択された正規表記語と、該正規表記語の品詞に対して予め定められたサフィックスが該正規表記語に結合された語とのペアの少なくとも1つとして生成されるようにすることができる。
第7の発明に係るプログラムは、上記モデル作成装置又は上記推定装置の各部として機能させるためのプログラムである。
本発明のモデル作成装置、方法、及びプログラムによれば、複数の正規表記語が格納された辞書に基づいて負例データを生成し、正例データが表すペアの意味類似度を含む素性と、負例データが表すペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成することにより、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを取得することができる、という効果が得られる。
本発明の推定装置、方法、及びプログラムによれば、単語の分割候補のペアの各々について、分割候補のペアの意味ベクトルの各々に基づいて算出される、ペアの意味類似度を含む素性と、モデル記憶部に記憶されたモデルとに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定することにより、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができる、という効果が得られる。
崩れ表記語の一例を示す図である。 様々な形態で表記される崩れ表記語を説明するための図である。 本発明の実施の形態に係るモデル作成装置の構成を示すブロック図である。 負例データの一例を示す図である。 モデル作成装置の処理の流れを説明するための説明図である。 本発明の実施の形態に係る推定装置の構成を示すブロック図である。 ノード「うっせぇし」の近傍ノードリストの例を示す図である。 ランダムウォークによって得られる結果の例を示す図である。 ランダムウォークの結果得られた類似度行列から得られる隣接候補の集合の一例を示す図である。 正規表記語の候補集合から得られる結果の一例を示す図である。 推定装置の処理の流れを説明するための説明図である。 推定装置の処理の流れを説明するための説明図である。 本発明の実施の形態に係るモデル作成装置におけるモデル作成処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る推定装置における推定処理ルーチンを示すフローチャートである。
<本発明の実施の形態の概要>
本実施の形態は、既存の辞書に存在しないweb上の崩れ表記語を自動的に獲得するための技術である。辞書に存在する語「すごい‐形容詞」に対応する崩れ表記語の自動獲得例を図1に示す。図1に示すように、「すごい」に対して「すげー」、「すげぇ」、「すげえ」、「すっごい」、及び「すーごい」等が崩れ表記語として獲得される。
本実施の形態では、以下に示すように用語を定義する。
正規表記語:辞書に存在する語
崩れ表記語:辞書に存在せず、正規表記語の異形として出現する表記の語
同義語ペア:同一の意味で表記が異なる単語のペア
正例データ:正規表記語と崩れ表記語との正解のペアデータ
負例データ:正規表記語と崩れ表記語との不正解のペアデータ
崩れ表記語は様々であり、例えば、図2に示すように、口語調、小書き文字、カタナカ化、及びひらがな化の崩れ表記語が存在する。
本実施の形態では、正規表記語と崩れ表記語との組み合わせを識別する際に、複数の素性を考慮しなければうまく識別できない例に関しても精度よく識別を行うために、正解データを用いたモデルを導入する。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明を、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するモデル作成装置と、作成されたモデルを用いて対応する正規表記語と崩れ表記語との組み合わせを推定する推定装置とに適用した場合を例に説明する。
<本発明の実施の形態に係るモデル作成装置の構成>
本発明の実施の形態に係るモデル作成装置の構成について説明する。図3に示すように、本発明の実施の形態に係るモデル作成装置100は、CPUと、RAMと、後述するモデル作成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル作成装置100は、機能的には図3に示すように第1入力部10と、第2入力部12と、演算部20とを備えている。
第1入力部10は、正規表記語と該正規表記語に対応する崩れ表記語とのペアを表す予め定められた複数の正例データを受け付ける。第2入力部12は、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストであるテキスト群を受け付ける。
演算部20は、辞書21と、負例生成部22と、単語分割部24と、意味ベクトル計算部26と、類似度算出部28と、モデル作成部30と、モデル記憶部32とを含んで構成されている。
辞書21には、複数の正規表記語が格納されている。辞書21としては、一般的な形態素解析辞書を想定する。辞書21には、正規表記語の表記、品詞、読みなどの情報が格納されている。ここで、辞書21に存在している語を全て「正規表記語」と定義する(崩れ表記語は辞書21に存在しない語)。例えばJtag辞書(出願人が整備している辞書)に格納されている情報の一例を以下に示す。
かっぱ-寿司,名詞:固有:組織,100,カッパ'-ズシ,,,,,374:428,88
負例生成部22は、辞書21に格納された複数の正規表記語に基づいて、正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データを生成する。
正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する際には、負例データがないと学習することができない。他の正例データを負例データとして利用する方法もあるが、人が作成する正例データは少ない傾向があり、負例データのバリエーションをカバーすることができない。
そこで、本実施の形態では、辞書に格納された語である辞書語や活用形、高頻度な表記など使用することで正例データに出現しないバリエーションを生成するため、バリエーションが多い負例データの生成が可能となり、モデルによる推定の精度を高めることができる。負例であることが自明であるパターンのみを負例データとして生成する。
例えば、負例生成部22は、下記の複数の条件(1)〜(3)に基づき、負例データを生成する。
(1)辞書21に格納された特定の正規表記語に対して、特定の正規表記語とは異なる正規表記語をランダムに選択し、特定の正規表記語とランダムに選択された正規表記語とのペアを負例データとして生成する。例えば、「やばい−おはよう」等が負例データとして生成される。
(2)辞書21に格納された活用形をもつ特定の正規表記語に対して、特定の正規表記語の活用形が異なる活用形の正規表記語を生成し、特定の正規表記語と異なる活用形の正規表記語とのペアを負例データとして生成する。例えば、「うれしい−うれしく」等が負例データとして生成される。
(3)辞書21からランダムに選択された特定の正規表記語に対して、特定の正規表記語の品詞に対して予め定められたサフィックスが当該特定の正規表記語に結合された語を生成し、特定の正規表記語とサフィックスが当該特定の正規表記語に結合された語とのペアを負例データとして生成する。例えば、「私−私は」等が負例データとして生成される。なお、予め定められたサフィックスとしては、高頻度なひらがなサフィックスを用いることができる。高頻度なサフィックスの求め方としては、下記の非特許文献参6等を参考に品詞ごとにあらかじめ抽出しておく。
非特許文献6:村脇ら,“形態論制約を用いた未知語の自動獲得”,言語処理学会第14回年次大会発表論文集
正例データから生成された負例データの一例を図4に示す。図4に示すように、左側に示す予め収集した正例データから、右側に示すような負例データが生成される。なお、負例生成部22は、第1入力部10により受け付けた複数の正例データを用いて、生成された負例データと正例データとを比較し、負例データが正例データと合致する場合には、当該負例データを除外する処理を行っても良い。
単語分割部24は、第2入力部12により受け付けたテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成し、分割済みコーパスを生成する。
単語分割部24は、辞書21に存在しない崩れ表記語についても区切り候補として出力できるような手法を用いる。例えば、単語分割部24は、点推定を用いた単語分割手法、教師なし解析を用いた単語分割手法、又は形態素解析器のフリーソフトであるMecab等の解析結果を、予め定めたルールを元に一部結合させた候補を生成する手法のような、既存の単語分割手法を用いることができる。ここでMecab等の解析結果を予め定めたルールを元に一部結合させた候補を生成する手法では、未知語連続は結合する、名詞連続は結合するなどの予め定めたルールを用いることができる。
意味ベクトル計算部26は、単語分割部24によって生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。
意味ベクトル計算部26は、分割候補である各単語の意味ベクトルを求める手法として、下記の参考文献に記載のword2vec等、既存の手法を用いることができる。
参考文献:Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean., "Efficient Estimation of Word Representations in Vector Space.", In Proceedings of Workshop at ICLR, 2013.
類似度算出部28は、意味ベクトル計算部26によって計算された各単語の意味ベクトルに基づいて、単語のペアの各々に対し、単語のペアの意味の類似度を表す意味類似度を算出する。また、類似度算出部28は、単語の音の各々に基づいて、単語のペアの各々に対し、単語のペアの音の類似度を表す音類似度を算出する。なお、音類似度の算出方法としては、例えば上記非特許文献5の手法を用いることができる。
モデル作成部30は、類似度算出部28によって算出された、第1入力部10により受け付けた正例データが表す正規表記語と崩れ表記語とのペアの各々についての意味類似度及び音類似度を含む素性と、負例生成部22によって生成された負例データが表す正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアの各々についての意味類似度及び音類似度を含む素性とに基づいて、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する。
なお、本実施の形態では、素性として意味類似度及び音類似度を用いる場合を例に説明するが、他の情報が素性に含まれていてもよい。例えば、先頭文字の変換有無、後続差分文字列、及び正規表記語候補の品詞等が素性に含まれていてもよい。なお、後続差分文字列の素性は、例えば上記非特許文献6に記載の方法を用いて作成することができる。
モデル記憶部32には、モデル作成部30によって作成されたモデルが記憶される。
図5に、モデル作成装置100の処理の流れを説明するための図を示す。図5に示すように、正例データ(例えば、W1−W5,W3−W7)が第1入力部10により入力されると、負例生成部22は、辞書21に格納された情報を用いて、負例データ(例えば、W1−W7)を生成する。
次に、テキスト群Aが第2入力部12により入力されると、単語分割部24は、処理1として、テキスト群のテキストから単語の分割候補B(W,・・・,W)を生成する。また、単語分割部24は、処理1として、テキスト群Aから分割済みコーパスを生成する。そして、意味ベクトル計算部26は、処理2として、単語区切りが付与されたテキスト群である分割済みコーパスに対し、単語の分割候補として出現した各単語(W,・・・,W)について、当該単語の意味ベクトルを計算する。
次に、類似度算出部28は、単語の音の各々に基づいて、単語の組み合わせの各々に対し音類似度を算出する。なお、組み合わせの各々に対する音類似度は行列Cで表現され、単語(W,・・・,W)の組み合わせに対して音類似度が行列Cの各要素に格納される。
また、類似度算出部28は、単語の意味ベクトルの各々に基づいて、分割候補の組み合わせの各々に対し意味類似度を算出する。なお、組み合わせの各々に対する意味類似度は行列Dで表現され、単語(W,・・・,W)の組み合わせに対して意味類似度が行列Dの各要素に格納される。
なお、音類似度の行列C及び意味類似度の行列Dに替えて、ランダムウォークが実施された類似度行列Rを用いてもよい。類似度行列Rについては後述する。
そして、モデル作成部30は、意味類似度の行列C及び音類似度の行列Dの各要素を含む素性と、負例データと、正例データとに基づいて、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する。そして、作成されたモデルがモデル記憶部32に格納される。なお、図5に示すように、素性には、後続差分文字列、及び正規表記語候補の品詞等が素性に含まれていてもよい。また、後続差分文字列の素性は、例えば上記非特許文献6に記載の方法を用いて作成することができる。
<本発明の実施の形態に係る推定装置の構成>
次に、本発明の実施の形態に係る推定装置の構成について説明する。図6に示すように、本発明の実施の形態に係る推定装置200は、CPUと、RAMと、後述する推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この推定装置200は、機能的には図6に示すように入力部40と、演算部50と、出力部70を備えている。
入力部40は、第2入力部12と同様に、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストであるテキスト群を受け付ける。
演算部50は、単語分割部52と、意味ベクトル計算部54と、類似度算出部56と、ランダムウォーク部58と、モデル記憶部60と、推定部62とを含んで構成されている。
単語分割部52は、単語分割部24と同様に、入力部40により受け付けたテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成し、分割済みコーパスを生成する。
意味ベクトル計算部54は、意味ベクトル計算部26と同様に、単語分割部52によって生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。
類似度算出部56は、類似度算出部28と同様に、意味ベクトル計算部54によって計算された各単語の意味ベクトルに基づいて、分割候補のペアの各々に対し、分割候補のペアの意味類似度を算出する。また、類似度算出部56は、類似度算出部28と同様に、分割候補の音の各々に基づいて、分割候補のペアの各々に対し、分割候補のペアの音類似度を算出する。
ランダムウォーク部58は、類似度算出部56によって算出された、分割候補のペアの各々の意味類似度及び音類似度に基づいて、分割候補の各々について、当該分割候補と類似する分割候補からなる近傍ノードリストを生成する。そして、ランダムウォーク部58は、分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、当該分割候補に対する隣接候補の集合を取得する。
具体的には、まず、ランダムウォーク部58は、類似度算出部56によって算出された分割候補のペアの各々の意味類似度及び音類似度に基づいて、分割候補のペアの各々に対する意味類似度を各要素とする行列と、分割候補のペアの各々に対する音類似度を各要素とする行列とを生成する。
そして、ランダムウォーク部58は、意味類似度の行列の各要素と音類似度の行列の各要素とに基づいて、分割候補の各々について、意味類似度と音類似度とが基準値を満たす他の分割候補を抽出し、各分割候補に対応する近傍ノードリストを生成する。近傍ノードリストの各ノードは、意味類似度と音類似度とが基準値を満たす、分割候補のペアに対応する。後述するように、モデルを用いて正規表記語と崩れ表記語との組み合わせを推定する場合であっても、全ての分割候補のペア間で正負の識別を行うのは高コストである。そのため、まずは音類似度と意味類似度との緩い閾値である基準値で制約をかける。
図7に、ノード「うっせぇし」の近傍ノードリストの例を示す。図7の右側の数値は、意味類似度の値を表している。図7に示す例では、0.4を基準値として得られた近傍ノードリストである。
次に、ランダムウォーク部58は、分割候補の各々について生成した近傍ノードリストに対し、ランダムウォークを指定回数行い、分割候補のペアの各々の類似度を表す類似度行列を求め、ランダムウォークの結果得られた類似度行列に基づいて、分割候補の各々について、正規表記語の条件を満たす候補のみを隣接候補の集合として設定する。
なお、ランダムウォークとしては、例えば以下の非特許文献7に記載の方法を用いることができる。また、ランダムウォークの初期値の行列は、意味類似度の各要素を正規化した値を使うことができる。
非特許文献7:Martin Szummer, Tommi Jaakkola,“Partially labeled classification with Markov random walks”,[平成28年6月24日検索]、インターネット< http://people.ee.duke.edu/~lcarin/SzummerJaakkola.pdf>
図8に、ランダムウォークによって得られる結果の例を示す。図8に示す例では、正解のペアが「やっべぇ−やばい」である場合が示されている。図8に示すように、基準値に基づき生成された左側の近傍ノードリストでは、基準値によって1次のつながりしか考慮されない場合、正解の正規表記語「やばい」は存在しない。しかし、図8の右側に示すように、10回のランダムウォークを行うことにより、正解の正規表記語である「やばい」が出現するようになる。
また、ランダムウォークの結果得られた類似度行列の値に基づいて、例えば、図9に示すように、正規表記語の条件を満たす候補のみが隣接候補の集合として設定される。正規表記語の条件としては、例えば上記非特許文献5などの方法を参考にして設定することができる。
モデル記憶部60には、モデル作成装置100によって作成されたモデルが記憶される。
推定部62は、複数の分割候補の各々について、当該分割候補と、ランダムウォーク部58によって取得された隣接候補の集合に含まれる隣接候補との組み合わせについて、モデル記憶部60に記憶されたモデルと、当該組み合わせの意味ベクトルの各々に基づいて類似度算出部56により算出された意味類似度、及び当該組み合わせの音の各々に基づいて類似度算出部56により算出された音類似度を含む素性とに基づいて、当該組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。
具体的には、推定部62は、ランダムウォークによって取得された隣接候補の集合と、分割候補の各ペアに対する意味類似度及び音類似度を含む素性集合と、モデル記憶部60に記憶されたモデルとに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。推定部62は、正規表記語と崩れ表記語との組み合わせであると推定された分割候補のペアを同義語ペアとして出力する。
図10に、正規表記語と崩れ表記語との組み合わせであるか否かが推定された分割候補の組み合わせの例を示す。図10に示す例では、「うっせぇし」に対して「うるさいし」が正解であると判定されている。
出力部70は、推定部62によって正規表記語と崩れ表記語との組み合わせであると推定された、分割候補の組み合わせを結果として出力する。
図11及び図12に、推定装置200の処理の流れを説明するための図を示す。図11に示すように、テキスト群Aが入力部40により入力されると、単語分割部52は、処理1として、テキスト群のテキストから単語の分割候補B(W,・・・,W)を生成する。また、単語分割部52は、処理1として、テキスト群Aから分割済みコーパスを生成する。そして、意味ベクトル計算部54は、処理2として、単語区切りが付与されたテキスト群である分割済みコーパスに対し、単語の分割候補として出現した単語の各々(W,・・・,W)について、当該単語の意味ベクトルを計算する。
次に、類似度算出部56は、分割候補の音の各々に基づいて、分割候補のペアの各々に対し音類似度を算出する。なお、ペアの各々に対する音類似度は行列Cで表現され、分割候補(W,・・・,W)のペアに対して音類似度が行列Cの各要素に格納される。
また、類似度算出部56は、分割候補の意味ベクトルの各々に基づいて、分割候補のペアの各々に対し意味類似度を算出する。なお、ペアの各々に対する意味類似度は行列Dで表現され、分割候補(W,・・・,W)のペアに対して意味類似度が行列Dの各要素に格納される。
次に、ランダムウォーク部58は、意味類似度の行列Dの各要素と音類似度の行列Cの各要素とについて、意味類似度と音類似度とが基準値を満たす各要素を抽出し、各分割候補の近傍ノードリストEとして出力する。
そして、ランダムウォーク部58は、図12に示すように、生成した近傍ノードリストEの各ノードに対し、ランダムウォークを指定回数行う。ランダムウォークの結果得られた類似度行列Rに基づいて、各分割候補について、正規表記語の条件を満たす候補のみを隣接候補の集合として出力する。なお、ランダムウォークで初期値として利用する行列としては、例えば上記非特許文献5の「3.3.2 類似度グラフの構築」に記載されている類似度グラフを利用することができる。
そして、推定部62は、モデル記憶部60に記憶されたモデルと、分割候補の組み合わせ各々についての意味類似度の行列C及び音類似度の行列Dを含む素性とに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。なお、図12に示すように、素性には、後続差分文字列、及び正規表記語候補の品詞等が素性に含まれていてもよい。
なお、意味的類似度の素性の行列Cに替えて、ランダムウォークで生成された類似度行列Rを用いてもよい。類似度行列Rを利用する場合には、まず、推定装置200による推定処理において、ランダムウォークにより対象となる分割候補を増加させ類似度行列Rを生成する。次に、モデル作成装置100によるモデル作成処理において類似度行列Rを用いてモデルを作成する。そして、推定装置200による推定処理において、作成されたモデルを用いて同義語ペアの推定という流れになる。
<本発明の実施の形態に係るモデル作成装置の作用>
次に、本発明の実施の形態に係るモデル作成装置100の作用について説明する。なお、以下では、ランダムウォークによって生成された類似度行列を用いる場合を例に説明する。第1入力部10において複数の正例データを受け付け、第2入力部12においてテキスト群を受け付けると、モデル作成装置100は、図13に示すモデル作成処理ルーチンを実行する。
まず、ステップS100において、単語分割部24は、第2入力部12において受け付けたテキスト群を取得する。
次に、ステップS102において、負例生成部22は、辞書21に格納された複数の正規表記語に基づいて、正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データを生成する。
ステップS104では、単語分割部24は、上記ステップS100で取得したテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成する。
ステップS106では、意味ベクトル計算部26は、上記ステップS104で生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。
ステップS108では、類似度算出部28は、上記ステップS106で計算された各単語の意味ベクトルに基づいて、単語のペアの各々に対し、単語のペアの意味の類似度を表す意味類似度を算出する。また、類似度算出部28は、単語の音の各々に基づいて、単語のペアの各々に対し、単語のペアの音の類似度を表す音類似度を算出する。
ステップS109では、ランダムウォークの結果生成された類似度行列を取得する。そして、類似度行列に基づいて、各分割候補について、正規表記語の条件を満たす候補のみを隣接候補の集合として設定する。
ステップS110では、モデル作成部30は、上記ステップS109で取得された隣接候補の集合と、上記ステップS108で算出された、正例データが表す正規表記語と崩れ表記語とのペアの各々についての意味類似度及び音類似度を含む素性と、上記ステップS102で生成された負例データが表す正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアの各々についての意味類似度及び音類似度を含む素性とに基づいて、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する。そして、モデル作成部30は、作成したモデルをモデル記憶部32に格納して処理を終了する。
<本発明の実施の形態に係る推定装置の作用>
次に、本発明の実施の形態に係る推定装置200の作用について説明する。モデル作成装置100によって作成されたモデルが推定装置200に入力されると、モデル記憶部60に格納される。そして、推定装置200の入力部40においてテキスト群を受け付けると、推定装置200は、図14に示す推定処理ルーチンを実行する。
ステップS200において、単語分割部52は、入力部40において受け付けたテキスト群を取得する。
ステップS202において、単語分割部52は、上記ステップS200で取得したテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成する。
ステップS204において、意味ベクトル計算部54は、上記ステップS202で生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。
ステップS205において、類似度算出部56は、上記ステップS204で計算された各単語の意味ベクトルに基づいて、分割候補のペアの各々に対し、分割候補のペアの意味の類似度を表す意味類似度を算出する。また、類似度算出部56は、分割候補の音の各々に基づいて、分割候補のペアの各々に対し、分割候補のペアの音の類似度を表す音類似度を算出する。
ステップS206において、ランダムウォーク部58は、上記ステップS205から得られる、意味類似度の行列の各要素と音類似度の行列の各要素とに基づいて、分割候補の各々について、意味類似度と音類似度とが基準値を満たす他の分割候補を抽出し、各分割候補に対応する近傍ノードリストを生成する。
ステップS208において、ランダムウォーク部58は、上記ステップS206で分割候補の各々について生成された近傍ノードリストに対し、ランダムウォークを指定回数行い、類似度行列を生成する。そして、ランダムウォーク部58は、ランダムウォークの結果得られた類似度行列に基づいて、各分割候補について、正規表記語の条件を満たす候補のみを隣接候補の集合として設定する。
ステップS210において、推定部62は、上記ステップS208で取得された隣接候補の集合と、分割候補の各ペアに対する意味類似度及び音類似度を含む素性集合と、モデル記憶部60に記憶されたモデルとに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。そして、推定部62は、正規表記語と崩れ表記語との組み合わせであると推定された分割候補のペアを同義語ペアとして出力する。
ステップS212において、出力部70は、上記ステップS210で出力された同義語ペアを出力して処理を終了する。
以上説明したように、本発明の実施の形態に係るモデル作成装置によれば、複数の正規表記語が格納された辞書に基づいて負例データを生成し、正例データが表すペアの意味類似度を含む素性と、負例データが表すペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成することにより、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを取得することができる。
また、本発明の実施の形態に係る推定装置によれば、単語の分割候補のペアの意味類似度に基づいて、分割候補と類似する分割候補からなる近傍ノードリストを生成し、各近傍ノードリストに対するランダムウォークを実施し、分割候補に対する隣接候補の集合を取得し、分割候補と取得された隣接候補の集合に含まれる隣接候補との組み合わせについて、予め作成されたモデルと、当該組み合わせの意味ベクトルの各々に基づいて算出される意味類似度を含む素性とに基づいて、当該組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定することにより、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができる。
また、単語の分割候補間の一次のつながりでは正規表記語が出現しないペアに対しても、ランダムウォークを用いることで効率良く候補を拡大することができる。これにより、複数次数のつながりで正規表記語が含まれる場合には、正規表記語の候補集合に正規表記語を含めることができる。
また、本実施の形態では、正例データと負例データとに基づき作成されたモデルを用いて正規表記語と崩れ表記語とを推定する。この際、モデルとしてはSVMや最大エントロピーモデルなどの一般的なモデルを用いることができ、また正例データを用いて自明な負例データを生成することで、精度の向上を図ることができる。
また、正例データと負例データとに基づきモデルを構築することにより、多様な素性を柔軟に取り込むことが可能となり、正規表記語と崩れ表記語との高精度な識別が可能になる。また、モデルの構築に際し、複数の方法で負例データを生成することにより、音や意味類似度で識別が難しい候補に対しても識別の性能を向上させることができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の実施の形態では、素性に意味類似度及び音類似度が含まれている場合を例に説明したが、これに限定されるものではない。例えば、意味類似度のみが素性に含まれていてもよいし、上述したように、後続差分文字列及び正規表記語候補の品詞等が素性に含まれていてもよい。
また、上記の実施の形態では、モデル作成装置と推定装置とを別々の装置として構成する場合を例に説明したが、モデル作成装置と推定装置とを1つの装置として構成してもよい。
上述のモデル作成装置100及び推定装置200は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 第1入力部
12 第2入力部
20,50 演算部
21 辞書
22 負例生成部
24,52 単語分割部
26,54 意味ベクトル計算部
28,56 類似度算出部
30 モデル作成部
40 入力部
32,60 モデル記憶部
58 ランダムウォーク部
62 推定部
70 出力部
100 モデル作成装置
200 推定装置

Claims (8)

  1. 正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、
    前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算する意味ベクトル計算部と、
    複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成する負例生成部と、
    正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するモデル作成部と、
    を含むモデル作成装置。
  2. 複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部と、
    正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、
    前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、
    前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、
    を含む推定装置。
  3. 複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部と、
    正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、
    前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、
    前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するランダムウォーク部と、
    前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、
    を含む推定装置。
  4. 前記負例データは、
    前記辞書に格納された正規表記語と、該正規表記語とは異なる正規表記語とのペア、
    前記辞書に格納された活用形をもつ正規表記語と、該正規表記語の活用形とは異なる活用形の正規表記語とのペア、及び
    前記辞書からランダムに選択された正規表記語と、該正規表記語の品詞に対して予め定められたサフィックスが該正規表記語に結合された語とのペアの少なくとも1つとして生成される
    請求項1に記載のモデル作成装置。
  5. 単語分割部、意味ベクトル計算部、負例生成部、及びモデル作成部を含むモデル作成装置におけるモデル作成方法であって、
    前記単語分割部が、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、
    前記意味ベクトル計算部が、前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算するステップと、
    前記負例生成部が、複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成するステップと、
    前記モデル作成部が、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するステップと、
    を含むモデル作成方法。
  6. 単語分割部、意味ベクトル計算部、推定部、及び複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部を含む推定装置における推定方法であって、
    前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、
    前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、
    前記推定部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、
    を含む推定方法。
  7. 単語分割部、意味ベクトル計算部、ランダムウォーク部、推定部、及び複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部を含む推定装置における推定方法であって、
    前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、
    前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、
    前記ランダムウォーク部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するステップと、
    前記推定部が、前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、
    を含む推定方法。
  8. コンピュータを、請求項1に記載のモデル作成装置、又は請求項2〜請求項4の何れか1項に記載の推定装置の各部として機能させるためのプログラム。
JP2016157059A 2016-08-09 2016-08-09 モデル作成装置、推定装置、方法、及びプログラム Active JP6558863B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016157059A JP6558863B2 (ja) 2016-08-09 2016-08-09 モデル作成装置、推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016157059A JP6558863B2 (ja) 2016-08-09 2016-08-09 モデル作成装置、推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018025956A true JP2018025956A (ja) 2018-02-15
JP6558863B2 JP6558863B2 (ja) 2019-08-14

Family

ID=61193846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016157059A Active JP6558863B2 (ja) 2016-08-09 2016-08-09 モデル作成装置、推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6558863B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918676A (zh) * 2019-03-18 2019-06-21 广东小天才科技有限公司 一种检测意图正则表达式的方法及装置、终端设备
CN110046254A (zh) * 2019-04-18 2019-07-23 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN111339768A (zh) * 2020-02-27 2020-06-26 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
WO2020144736A1 (ja) * 2019-01-08 2020-07-16 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
CN112256849A (zh) * 2020-10-20 2021-01-22 深圳前海微众银行股份有限公司 模型训练方法、文本检测方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098033A (en) * 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
JP2011118526A (ja) * 2009-12-01 2011-06-16 Hitachi Ltd 単語意味関係抽出装置
JP2011138440A (ja) * 2009-12-30 2011-07-14 National Institute Of Information & Communication Technology 異表記取得装置、異表記取得方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098033A (en) * 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
JP2011118526A (ja) * 2009-12-01 2011-06-16 Hitachi Ltd 単語意味関係抽出装置
JP2011138440A (ja) * 2009-12-30 2011-07-14 National Institute Of Information & Communication Technology 異表記取得装置、異表記取得方法、およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020144736A1 (ja) * 2019-01-08 2020-07-16 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
KR20210088725A (ko) * 2019-01-08 2021-07-14 미쓰비시덴키 가부시키가이샤 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
KR102400689B1 (ko) 2019-01-08 2022-05-20 미쓰비시덴키 가부시키가이샤 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
CN109918676A (zh) * 2019-03-18 2019-06-21 广东小天才科技有限公司 一种检测意图正则表达式的方法及装置、终端设备
CN110046254A (zh) * 2019-04-18 2019-07-23 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN111339768A (zh) * 2020-02-27 2020-06-26 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN111339768B (zh) * 2020-02-27 2024-03-05 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN112256849A (zh) * 2020-10-20 2021-01-22 深圳前海微众银行股份有限公司 模型训练方法、文本检测方法、装置、设备和存储介质
CN112256849B (zh) * 2020-10-20 2024-02-13 深圳前海微众银行股份有限公司 模型训练方法、文本检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
JP6558863B2 (ja) 2019-08-14

Similar Documents

Publication Publication Date Title
JP6558863B2 (ja) モデル作成装置、推定装置、方法、及びプログラム
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
KR102057184B1 (ko) 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체
CN109299228B (zh) 计算机执行的文本风险预测方法及装置
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US20180075017A1 (en) Computer-readable recording medium, retrieval device, and retrieval method
JP6427466B2 (ja) 同義語ペア獲得装置、方法、及びプログラム
Atia et al. Increasing the accuracy of opinion mining in Arabic
Ljubešić et al. Standardizing tweets with character-level machine translation
KR20180094664A (ko) 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
Etaiwi et al. Statistical Arabic name entity recognition approaches: A survey
Gómez-Adorno et al. A graph based authorship identification approach
WO2018072501A1 (en) Information extraction apparatus and method
Elayidom et al. Text classification for authorship attribution analysis
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
Adler et al. Real-time claim detection from news articles and retrieval of semantically-similar factchecks
Gubelmann et al. A philosophically-informed contribution to the generalization problem of neural natural language inference: Shallow heuristics, bias, and the varieties of inference
JP2015169947A (ja) モデル学習装置、形態素解析装置、及び方法
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
Oudah et al. Person name recognition using the hybrid approach
KR101983477B1 (ko) 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
CN112035670B (zh) 基于图像情感倾向的多模态谣言检测方法
JP2015102914A (ja) 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム
KR102203895B1 (ko) 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190715

R150 Certificate of patent or registration of utility model

Ref document number: 6558863

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150