JP2015118498A - 同一意図の類似文を作成するプログラム、装置及び方法 - Google Patents

同一意図の類似文を作成するプログラム、装置及び方法 Download PDF

Info

Publication number
JP2015118498A
JP2015118498A JP2013260804A JP2013260804A JP2015118498A JP 2015118498 A JP2015118498 A JP 2015118498A JP 2013260804 A JP2013260804 A JP 2013260804A JP 2013260804 A JP2013260804 A JP 2013260804A JP 2015118498 A JP2015118498 A JP 2015118498A
Authority
JP
Japan
Prior art keywords
synonym
word
seed
sentence
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013260804A
Other languages
English (en)
Other versions
JP2015118498A5 (ja
JP6251562B2 (ja
Inventor
亮翼 住友
Ryosuke Sumitomo
亮翼 住友
加藤 恒夫
Tsuneo Kato
恒夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013260804A priority Critical patent/JP6251562B2/ja
Publication of JP2015118498A publication Critical patent/JP2015118498A/ja
Publication of JP2015118498A5 publication Critical patent/JP2015118498A5/ja
Application granted granted Critical
Publication of JP6251562B2 publication Critical patent/JP6251562B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】シード文を含む同一意図文の集合と、大量の一般文の集合とを参照し、多様な同一意図の類似文を自動的に作成するプログラム等を提供する。
【解決手段】シード文で係り合う第1シード語及び第2シード語を検出し、類義語データベースを用いて、シード語に類似する類義語を検索する。次に、同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出する。次に、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する。そして、シード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する。最後に、シード語と各類義語とが共起する類似文を作成する。
【選択図】図1

Description

本発明は、類似文を作成する技術に関する。
音声対話システムによれば、利用者の意図を表す発話文例を、予め登録しておく必要がある。このとき、同一意図の発話文例であっても、利用者毎に多様に異なるために、多数の発話文例を登録しておかなければならない。
発話文例を大量に収集するために、一般的には、Webサーバ上のブログ(Web log)やSNS(Social Networking Service)によって公開されたテキストを収集し解析することが考えられる。しかしながら、このような公開されたテキストは、読文例であって、発話文例とは文体が異なる。例えば、意図「メール受信」の発話文「メールは届いていますか」は、Webサーバ上で公開されるテキストには、ほとんど出現しない。
そのために、音声対話システムに登録する発話文例は、人手によって作成するか、又は、そのシステムのログデータから発話内容を人手によって書き起こす必要がある。これらの作業には、多大な人手によるコストがかかり、人手の個人差による発話文例の偏りも問題となる。
これに対し、従来、人手で作成した発話文から新しい文を生成し、その意図に基づいて分類された発話文を拡充する技術がある(例えば特許文献1参照)。この技術によれば、意図の関係性に応じて階層化された意図階層データを用いる。上位下位関係・兄弟関係にある意図に対応付いたテキストから、一致部分及び不一致部分を抽出し、上位下位関係又は兄弟関係のいずれか一方の意図を表す新たなテキストを生成する。
例えばカーナビの機器操作に関する意図として、以下のような意図階層データがあるとする。
上位意図「指定なしのルート変更意図」とそれに属する文「ルートを選択したい」、
->下位意図「一般道優先のルート変更意図」
それに属する文「一般道優先ルートを選択」、「下道で行く」、
->下位意図「有料道優先のルート変更意図」
それに属する文「有料優先ルートで行く」、「有料優先ルートがいいな」
この場合、これらの階層に属する文の一致部分と不一致部分から、以下のような新しい文を生成することで、発話文を拡充する。
->下位意図「一般道優先のルート変更意図」
それに属する文「一般道優先ルートがいいな」、「下道がいいな」
->下位意図「有料道優先のルート変更意図」
それに属する文「有料優先ルートを選択」、「有料優先ルートを選択」
また、複数の文例が格納されたデータベースから、入力文と類似する文例を抽出し、その文例内の単語を置き換えた文を生成する技術がある(例えば特許文献2参照)。この技術によれば、入力文及びデータベース内の文例に出現する各名詞に対して、単語に対応する複数段階に分類された意味分類情報を保持する単語意味辞書を用いる。そして、入力文に出現する名詞集合とデータベース内の各文例に出現する名詞集合との全組み合わせについて、各名詞の意味分類情報の一致度によるスコアを算出し、入力文と最も類似する文例を導出する。最も類似した文例中の各名詞について、入力文の各名詞との意味分類情報の一致度によって、置換可能と判定した際に、名詞を置換した文を新たに生成する。
特開2012−164267号公報 特開2001−256222号公報
特許文献1に記載の技術によれば、意図の適切な上位下位階層を前提としている。しかしながら、上位下位階層によっては不自然な文を生成する場合がある。
上位意図「メール作成意図」とそれに属する文「新規メール」
->下位意図「返信メール作成意図」
それに属する文「メールを返信する」
この場合、下位意図に「新規メールを返信する」といった不自然な文が生成される。
また、特許文献1に記載の技術によれば、上位意図に対しては文を生成することができない。
また、特許文献2に記載に技術によれば、単語意味辞書を用いて文の類似度算出及び置換判定をする。しかしながら、単語の意味は出現する文脈によって異なる場合があり、不適切に置換する可能性がある。
そこで、本発明は、シード文を含む同一意図文の集合と、大量の一般文の集合とを参照し、多様な同一意図の類似文を自動的に作成することができるプログラム、装置及び方法を提供することを目的とする。
本発明によれば、同一意図の類似文を作成するようにコンピュータを機能させるプログラムであって、
任意の同一意図文をシード文の中で係り合うシード語を検出するシード文解析手段と、
類義語データベースを用いて、シード語に類似する1つ以上の類義語を検索する類義語検索手段と、
同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出するシード語共起ベクトル算出手段と、
大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する類義語共起ベクトル算出手段と、
シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する類義語選択手段と、
シード語と各類義語とが共起する類似文を作成する類似文作成手段と
してコンピュータを機能させることを特徴とする。
本発明のプログラムにおける他の実施形態によれば、
シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第1シード語及び第2シード語を検出し、
類義語検索手段は、類義語データベースを用いて、第1シード語に類似する1つ以上の第1類義語と、第2シード語に類似する1つ以上の第2類義語とを検索し、
シード語共起ベクトル算出手段は、同一意図文の集合を参照し、各文脈語をベクトルの要素として、第1シード語に係る各文脈語の出現頻度からなる第1シード語共起ベクトルと、第2シード語に係る各文脈語の出現頻度からなる第2シード語共起ベクトルとを算出し、
類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第1類義語に係る各文脈語の出現頻度からなる第1類義語共起ベクトルと、各第2類義語に係る各文脈語の出現頻度からなる第2類義語共起ベクトルとを算出し、
類義語選択手段は、第1シード語に対する第1シード語共起ベクトルと比較して所定閾値以上の類似度となる第1類義語共起ベクトルの第1類義語と、第2シード語に対する第2シード語共起ベクトルと比較して所定閾値以上の類似度となる第2類義語共起ベクトルの第2類義語とを選択し、
類似文作成手段は、第1シード語と各第2類義語とが共起する類似文と、各第1類義語と第2シード語と共起する類似文とを作成する
してコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
各共起ベクトルは、各文脈語の出現頻度から相互情報量基準によって共起強度を算出し、該共起強度を正規化した値を要素に対応付けたものである
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
類義語選択手段は、選択すべき類義語を所定個数以下とする
ようにコンピュータを機能させることも好ましい。
本発明によれば、同一意図の類似文を作成する装置であって、
任意の同一意図文をシード文の中で係り合うシード語を検出するシード文解析手段と、
類義語データベースを用いて、シード語に類似する1つ以上の類義語を検索する類義語検索手段と、
同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出するシード語共起ベクトル算出手段と、
大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する類義語共起ベクトル算出手段と、
シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する類義語選択手段と、
シード語と各類義語とが共起する類似文を作成する類似文作成手段と
してコンピュータを機能させることを特徴とする。
本発明の装置における他の実施形態によれば、
シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第1シード語及び第2シード語を検出し、
類義語検索手段は、類義語データベースを用いて、第1シード語に類似する1つ以上の第1類義語と、第2シード語に類似する1つ以上の第2類義語とを検索し、
シード語共起ベクトル算出手段は、同一意図文の集合を参照し、各文脈語をベクトルの要素として、第1シード語に係る各文脈語の出現頻度からなる第1シード語共起ベクトルと、第2シード語に係る各文脈語の出現頻度からなる第2シード語共起ベクトルとを算出し、
類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第1類義語に係る各文脈語の出現頻度からなる第1類義語共起ベクトルと、各第2類義語に係る各文脈語の出現頻度からなる第2類義語共起ベクトルとを算出し、
類義語選択手段は、第1シード語に対する第1シード語共起ベクトルと比較して所定閾値以上の類似度となる第1類義語共起ベクトルの第1類義語と、第2シード語に対する第2シード語共起ベクトルと比較して所定閾値以上の類似度となる第2類義語共起ベクトルの第2類義語とを選択し、
類似文作成手段は、第1シード語と各第2類義語とが共起する類似文と、各第1類義語と第2シード語と共起する類似文とを作成する
ことも好ましい。
本発明によれば、装置を用いて、同一意図の類似文を作成する方法であって、
任意の同一意図文をシード文の中で係り合うシード語を検出する第1のステップと、
類義語データベースを用いて、シード語に類似する1つ以上の類義語を検索する第2のステップと、
同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出する第3のステップと、
大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する第4のステップと、
シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する第5のステップと、
シード語と各類義語とが共起する類似文を作成する第6のステップと
を有することを特徴とする。
本発明の方法における他の実施形態によれば、
第1のステップは、シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第1シード語及び第2シード語を検出し、
第2のステップは、類義語データベースを用いて、第1シード語に類似する1つ以上の第1類義語と、第2シード語に類似する1つ以上の第2類義語とを検索し、
第3のステップは、同一意図文の集合を参照し、各文脈語をベクトルの要素として、第1シード語に係る各文脈語の出現頻度からなる第1シード語共起ベクトルと、第2シード語に係る各文脈語の出現頻度からなる第2シード語共起ベクトルとを算出し、
第4のステップは、類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第1類義語に係る各文脈語の出現頻度からなる第1類義語共起ベクトルと、各第2類義語に係る各文脈語の出現頻度からなる第2類義語共起ベクトルとを算出し、
第5のステップは、第1シード語に対する第1シード語共起ベクトルと比較して所定閾値以上の類似度となる第1類義語共起ベクトルの第1類義語と、第2シード語に対する第2シード語共起ベクトルと比較して所定閾値以上の類似度となる第2類義語共起ベクトルの第2類義語とを選択し、
第6のステップは、類似文作成手段は、第1シード語と各第2類義語とが共起する類似文と、各第1類義語と第2シード語と共起する類似文とを作成する
ことも好ましい。
本発明のプログラム、装置及び方法によれば、シード文を含む同一意図文の集合と、大量の一般文の集合とを参照し、多様な同一意図の類似文を自動的に抽出することができる。
本発明におけるプログラムの機能構成図である。 一般文データベースに蓄積されたデータ構造を表す説明図である。 同一意図文データベースに蓄積されたデータ構造を表す説明図である。 類義語データベースに蓄積されたデータ構造を表す説明図である。 第1シード共起ベクトル及び第1類義語共起ベクトルを表す説明図である。 第2シード共起ベクトル及び第2類義語共起ベクトルを表す説明図である。 本発明における類似文作成装置を含むシステム構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるプログラムの機能構成図である。
図1によれば、類似文作成装置1に搭載されたコンピュータを機能させるプログラムの構成が表されており、一般文データベース101と、同一意図文データベース102と、類義語データベース103とを有する。
[一般文データベース101]
一般文データベース101は、大量の一般文(テキストデータ)を蓄積する。大量の一般文は、マスメディアによって配信されたものや、Webサーバ上のブログやSNSによって発信されたものである。
図2は、一般文データベースに蓄積されたデータ構造を表す説明図である。
図2(a)によれば、一般文データベース101に蓄積された一般文のデータ構造が表されている。一般文データベースは101は、文毎に、文頭単語BOSと文末単語EOSとの間で複数の形態素に区分し、その単語w、表記及び品詞が対応付けて記憶する。形態素解析とは、文法及び単語辞書を情報源として用いて、自然言語で書かれた文を言語として意味を持つ最小単位である形態素(Morpheme)に分割する技術をいう。また、形態素毎の品詞も判別することができる。
文:「父からCメールが届きました」
BOS/父/から/Cメール/が/届き/まし/た/EOS
文:「設定された地点まで到達しないと完了しない」
BOS/設定さ/れ/た/地点/まで/到達し/ない/と
/完了し/ない/EOS
尚、文節毎に文節IDが付与されて、係り元文節から見て、係り先文節の文節IDが対応付けられている(係り先が無い場合には−1が付与されている)。
図2(b)によれば、図2(a)で区分された複数の形態素から抽出した、共起対(係り受け対)が表されている。共起対とは、以下のような3つの組からなるデータ構造をいう。
共起対(w1,w2,w3)
w1:係り元の名詞・動詞・形容詞
w2:係り先の連続する助詞・助動詞列(機能語)
w3:係り先の名詞・動詞・形容詞
図2(c)によれば、図2(b)の共起対毎に、一般文データベース全体における出現頻度Cを対応付けたデータ構造が表されている。ここで、1つの共起対について、以下のように2つに区分して記憶される。
共起対(w1,w2,w3)
[単語]->[文脈語]
w1->(L_+w2;w3):w1に後置するw2とw3との対
w3->(F_+w1;w2):w3に前置するw1とw2との対
図2(c)によれば、共起対毎に以下のように区分され、出現頻度が表されている。
共起対(父,から,届く) :出現頻度123回
父 ->(L_+から;届く)
届く ->(F_+父 ;から)
共起対(Cメール,が,届く):出現頻度326回
Cメール->(L_+が ;届く)
届く ->(F_+Cメール;が)
尚、一般文データベース全体の中での各単語wの出現頻度C(w)を記憶すると共に、全単語の出現数C(*)も記憶する。
[同一意図文データベース101]
同一意図文データベース101は、複数の同一意図文(例えば発話文例)の集合を登録したものである。
図3は、同一意図文データベースに蓄積されたデータ構造を表す説明図である。
図3(a)によれば、同一意図文データベース102は、例えば以下のような同一意図となる文の集合を蓄積している。そして、前述した図2(a)と同様に、同一意図文毎に、文頭単語BOSと文末単語EOSとの間で複数の形態素に区分し、その単語w、表記及び品詞を対応付けて記憶する。
文:「メールは届いていますか」
BOS/メール/は/届い/て/い/ます/か/EOS
文:「Eメールを確認したい」
BOS/Eメール/を/確認し/たい/EOS
図3(b)によれば、前述した図2(b)と同様に、複数の形態素から抽出した共起対(係り受け対)が表されている。
共起対(メール,は,届く) :出現頻度24回
メール ->(L_+は ;届く)
届く ->(F_+メール;は)
共起対(Eメール,を,確認する):出現頻度11回
Eメール->(L_+を ;確認する)
確認する->(F_+Eメール;を)
尚、同一意図文データベース全体の中での各単語wの出現頻度C(w)を記憶すると共に、全単語の出現数C(*)も記憶する。
[類義語データベース103]
類義語データベース103は、各単語に対する類義語を登録した既存のデータベースである。
図4は、類義語データベースに蓄積されたデータ構造を表す説明図である。
図4によれば、以下の単語群は、同一意図を表すものであるとして登録されている。
・「新しい」「斬新」「新型」「新着」「新規」「新鮮」「目新しい」
・「メッセージ」「郵便」「Cメール」「メール」「伝言」「手紙」「Eメール」「ショートメール」
・「至る」「到着する」「届く」「来る」「受信する」「着信する」「受け取る」「到達する」
図1によれば、プログラムとして、シード文解析部11と、類義語検索部12と、シード語共起ベクトル算出部13と、類義語共起ベクトル算出部14と、類義語選択部15と、類似文作成部16とを有する。これら機能構成部は、類似文作成装置に搭載されたコンピュータを機能させるプログラムとして実行することによって実現される。
[シード文解析部11]
シード文解析部11は、任意の同一意図文をシード文の中で係り合うシード語を検出する。具体的には、任意の同一意図文をシード文として、その中で係り合う第1シード語及び第2シード語を検出する。図3の同一意図文データベース102から、以下の同一意図文をシード文としたとする。
シード文:「メールは届いていますか」
BOS/メール/は/届い/て/い/ます/か/EOS
第1シード語「メール」
第2シード語「届く」
「シード文」とは「種」文を意味し、そのシード文の中で係り合う第1シード語及び第2シード語が検出される。
[類義語検索部12]
類義語検索部12は、類義語データベース103を用いて、シード語に類似する1つ以上の類義語を検索する。具体的には、第1シード語に類似する1つ以上の第1類義語と、第2シード語に類似する1つ以上の第2類義語とを検索する。
図4によれば、第1シード語「メール」及び第2シード語「届く」について、以下のような類義語が検索される。
第1シード語「メール」 「は」 第2シード語「届く」
->第1類義語「メッセージ」 ->第2類義語「至っ」
「郵便」 「到着し」
「Cメール」 「来る」
「伝言」 「受信し」
「手紙」 「着信し」
「Eメール」 「受け取っ」
「ショートメール」 「到達し」
これら類義語は、シード文に対する類似文を作成する際に、置換候補となる語である。
[シード語共起ベクトル算出部13]
シード語共起ベクトル算出部13は、同一意図文データベース102を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出する。具体的には、以下の共起ベクトルを算出する。
「第1シード語共起ベクトル」第1シード語に係る各文脈語の出現頻度からなる
「第2シード語共起ベクトル」第2シード語に係る各文脈語の出現頻度からなる
[類義語共起ベクトル算出部14]
類義語共起ベクトル算出部14は、一般文データベース101を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する。具体的には、以下の共起ベクトルを算出する。
「第1類義語共起ベクトル」各第1類義語に係る各文脈語の出現頻度からなる
「第2類義語共起ベクトル」各第2類義語に係る各文脈語の出現頻度からなる
図5は、第1シード共起ベクトル及び第1類義語共起ベクトルを表す説明図である。
図5(a)によれば、同一意図文データベース102を用いて、第1シード語「メール」及び各文脈語の共起対に対する出現頻度、共起強度及び共起ベクトルが表されている。
図5(b)によれば、一般文データベース101を用いて、各第1類義語及び各文脈語の共起対に対する出現頻度、共起強度及び共起ベクトルが表されている。
ここで、共起ベクトルの要素となる文脈語の並びは、全ての共起ベクトルで共通である。従って、文脈語の数を次元数とするベクトルとして表される。
図6は、第2シード共起ベクトル及び第2類義語共起ベクトルを表す説明図である。
図6(a)によれば、同一意図文データベース102を用いて、第2シード語「届く」及び各文脈語の共起対に対する出現頻度、共起強度及び共起ベクトルが表されている。
図6(b)によれば、一般文データベース101を用いて、各第2類義語及び各文脈語の共起対に対する出現頻度、共起強度及び共起ベクトルが表されている。
共起ベクトルの要素値は、以下のステップによって算出される。
(S1)最初に、データベース全体の中で、単語w及び各文脈語が出現する出現頻度C(w,s)を算出する。
(S2)単語w毎に各文脈語sの出現頻度に基づく共起強度pmi(w,s)を算出する。共起強度pmi(w,s)は、例えば相互情報量(Mutual information)基準によって算出する。相互情報量基準とは、例えば2つの確率変数の相互依存の尺度を表す確率的手法をいう。
具体的には、単語w及び文脈語s毎に、以下の式によって値を算出する。
pmi(w,s)=log2{(C(*)・C(w,s))/(C(w)・C(s))}
図5(a)によれば、例えば以下のように算出されている。
pmi(メール,(L_を:書く))
=log2{(C(*)・C(メール,(L_を:書く))/
(C(メール)・C(L_を:書く))}
(S3)そして、単語w毎に、各共起強度pmi(w,s)を正規化した値を算出する。これによって、単語w毎に、各文脈語を要素とした要素値の共起ベクトルを算出することができる。勿論、共起強度は、相互情報量基準に限られることなく、他の共起強度の指標T-pmiを用いることもできる。
[類義語選択部15]
類義語選択部15は、シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する。具体的には、以下のような第1類義語と第2類義語とを選択する。
(1)第1シード語に対する第1シード語共起ベクトルと比較して所定閾値以上の類似度となる第1類義語共起ベクトルの第1類義語
(2)第2シード語に対する第2シード語共起ベクトルと比較して所定閾値以上の類似度となる第2類義語共起ベクトルの第2類義語
「類似度」とは、cos類似度(余弦類似度)であってもよい。cos類似度とは、ベクトル同士の成す角度の近さを表現し、1に近ければ類似しており、0に近ければ類似していないことになる。勿論、相関係数のような、一般的な他のベクトル間類似度を算出する方法を用いることもできる。
図5及び図6によれば、最終的に、類似度が所定閾値0.05以上の類似度となる類義語が選択される。その中でも、類似度が上位n個の類義語のみを選択するものであってもよい。
例えば類義語候補「手紙」は、第1シード語「メール」と比較して文章中での使われ方が異なるために、共起類似度は低い値となる。
例えば類義語候補「来る」は、第1シード語「届く」と比較して文章中での使われ方が異なるために、共起類似度は低い値となる。
[類似文作成部16]
類似文作成部16は、シード語と各類義語とが共起する類似文を作成する。具体的には、第1シード語と各第2類義語とが共起する類似文と、各第1類義語と第2シード語と共起する類似文とを作成する。
シード文「メールは届いていますか」
「Eメール」 「は」「届いていますか」
「Cメール」 「は」「届いていますか」
「ショートメール」「は」「届いていますか」
「メッセージ」 「は」「届いていますか」
「メール」 「は」「受信していますか」
「Eメール」 「は」「受信していますか」
・・・・・
「メール」 「は」「到着していますか」
「Eメール」 「は」「到着していますか」
・・・・・
「メール」 「は」「着信していますか」
「Eメール」 「は」「着信していますか」
・・・・・
「メール」 「は」「受け取っていますか」
「Eメール」 「は」「受け取っていますか」
・・・・・
シード文「メールは届いていますか」に出現する「届く」を置換する場合、類義語として「着信する」「到着する」は同一意図と考えられる。一方で、類義語として「至る」「到達する」は同一意図として適切ではない。
×「メールは至っていますか」
×「メールは到達していますか」
本発明によれば、シード文「メールは届いていますか」に対して、類義語「至る」「到達する」等が除外されることとなる。
図7は、本発明における類似文作成装置を含むシステム構成図である。
図7によれば、前述した類似文作成装置(装置)が、インターネットのようなネットワークに接続されている。インターネットには、マスメディアサーバや、ブログサーバ、SNSサーバ等が接続されている。マスメディアサーバは、一定の質を保った文章を公開する。また、ブログサーバやSNSサーバは、ユーザ端末から発信された投稿文章を公開する。特に、個人によって投稿された文章は、個人が様々な社会的又は文化的な話題について意見及び感想を述べたものであって、時代背景を最も反映したものであることが多い。類似文作成装置1は、これら外部サーバ3から、文章(テキストデータ)を収集することができる。勿論、類似文作成装置1は、予め大量の文章をディスクに蓄積したものであってもよい。
また、ユーザ端末2から、類似文作成装置1へ、ユーザによって入力されたシード文をクエリとして要求することができる。これに対し、類似文作成装置1は、前述した図1の処理によって作成した類似文を応答することができる。このようなシーケンスは、ユーザ端末2にインストールされた言語アプリケーションによって利用することができる。
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、シード文を含む同一意図文の集合と、大量の一般文の集合とを参照し、多様な同一意図の類似文を自動的に作成することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 類似文作成装置
101 一般文データベース
102 同一意図文データベース
103 類義語データベース
11 シード文解析部
12 類義語検索部
13 シード語共起ベクトル算出部
14 類義語共起ベクトル算出部
15 類義語選択部
16 類似文作成部
2 ユーザ端末
3 外部サーバ

Claims (8)

  1. 同一意図の類似文を作成するようにコンピュータを機能させるプログラムであって、
    任意の同一意図文をシード文の中で係り合うシード語を検出するシード文解析手段と、
    類義語データベースを用いて、シード語に類似する1つ以上の類義語を検索する類義語検索手段と、
    前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出するシード語共起ベクトル算出手段と、
    大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する類義語共起ベクトル算出手段と、
    シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する類義語選択手段と、
    シード語と各類義語とが共起する類似文を作成する類似文作成手段と
    してコンピュータを機能させることを特徴とするプログラム。
  2. 前記シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第1シード語及び第2シード語を検出し、
    前記類義語検索手段は、類義語データベースを用いて、第1シード語に類似する1つ以上の第1類義語と、第2シード語に類似する1つ以上の第2類義語とを検索し、
    前記シード語共起ベクトル算出手段は、前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、第1シード語に係る各文脈語の出現頻度からなる第1シード語共起ベクトルと、第2シード語に係る各文脈語の出現頻度からなる第2シード語共起ベクトルとを算出し、
    前記類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第1類義語に係る各文脈語の出現頻度からなる第1類義語共起ベクトルと、各第2類義語に係る各文脈語の出現頻度からなる第2類義語共起ベクトルとを算出し、
    前記類義語選択手段は、第1シード語に対する第1シード語共起ベクトルと比較して所定閾値以上の類似度となる第1類義語共起ベクトルの第1類義語と、第2シード語に対する第2シード語共起ベクトルと比較して所定閾値以上の類似度となる第2類義語共起ベクトルの第2類義語とを選択し、
    前記類似文作成手段は、第1シード語と各第2類義語とが共起する類似文と、各第1類義語と第2シード語と共起する類似文とを作成する
    してコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
  3. 各共起ベクトルは、各文脈語の出現頻度から相互情報量基準によって共起強度を算出し、該共起強度を正規化した値を前記要素に対応付けたものである
    ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
  4. 前記類義語選択手段は、選択すべき類義語を所定個数以下とする
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
  5. 同一意図の類似文を作成する装置であって、
    任意の同一意図文をシード文の中で係り合うシード語を検出するシード文解析手段と、
    類義語データベースを用いて、シード語に類似する1つ以上の類義語を検索する類義語検索手段と、
    前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出するシード語共起ベクトル算出手段と、
    大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する類義語共起ベクトル算出手段と、
    シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する類義語選択手段と、
    シード語と各類義語とが共起する類似文を作成する類似文作成手段と
    してコンピュータを機能させることを特徴とする装置。
  6. 前記シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第1シード語及び第2シード語を検出し、
    前記類義語検索手段は、類義語データベースを用いて、第1シード語に類似する1つ以上の第1類義語と、第2シード語に類似する1つ以上の第2類義語とを検索し、
    前記シード語共起ベクトル算出手段は、前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、第1シード語に係る各文脈語の出現頻度からなる第1シード語共起ベクトルと、第2シード語に係る各文脈語の出現頻度からなる第2シード語共起ベクトルとを算出し、
    前記類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第1類義語に係る各文脈語の出現頻度からなる第1類義語共起ベクトルと、各第2類義語に係る各文脈語の出現頻度からなる第2類義語共起ベクトルとを算出し、
    前記類義語選択手段は、第1シード語に対する第1シード語共起ベクトルと比較して所定閾値以上の類似度となる第1類義語共起ベクトルの第1類義語と、第2シード語に対する第2シード語共起ベクトルと比較して所定閾値以上の類似度となる第2類義語共起ベクトルの第2類義語とを選択し、
    前記類似文作成手段は、第1シード語と各第2類義語とが共起する類似文と、各第1類義語と第2シード語と共起する類似文とを作成する
    ことを特徴とする請求項5に記載の装置。
  7. 装置を用いて、同一意図の類似文を作成する方法であって、
    任意の同一意図文をシード文の中で係り合うシード語を検出する第1のステップと、
    類義語データベースを用いて、シード語に類似する1つ以上の類義語を検索する第2のステップと、
    前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出する第3のステップと、
    大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する第4のステップと、
    シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する第5のステップと、
    シード語と各類義語とが共起する類似文を作成する第6のステップと
    を有することを特徴とする方法。
  8. 第1のステップは、前記シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第1シード語及び第2シード語を検出し、
    第2のステップは、類義語データベースを用いて、第1シード語に類似する1つ以上の第1類義語と、第2シード語に類似する1つ以上の第2類義語とを検索し、
    第3のステップは、前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、第1シード語に係る各文脈語の出現頻度からなる第1シード語共起ベクトルと、第2シード語に係る各文脈語の出現頻度からなる第2シード語共起ベクトルとを算出し、
    第4のステップは、前記類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第1類義語に係る各文脈語の出現頻度からなる第1類義語共起ベクトルと、各第2類義語に係る各文脈語の出現頻度からなる第2類義語共起ベクトルとを算出し、
    第5のステップは、第1シード語に対する第1シード語共起ベクトルと比較して所定閾値以上の類似度となる第1類義語共起ベクトルの第1類義語と、第2シード語に対する第2シード語共起ベクトルと比較して所定閾値以上の類似度となる第2類義語共起ベクトルの第2類義語とを選択し、
    第6のステップは、前記類似文作成手段は、第1シード語と各第2類義語とが共起する類似文と、各第1類義語と第2シード語と共起する類似文とを作成する
    ことを特徴とする請求項7に記載の方法。
JP2013260804A 2013-12-18 2013-12-18 同一意図の類似文を作成するプログラム、装置及び方法 Active JP6251562B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013260804A JP6251562B2 (ja) 2013-12-18 2013-12-18 同一意図の類似文を作成するプログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013260804A JP6251562B2 (ja) 2013-12-18 2013-12-18 同一意図の類似文を作成するプログラム、装置及び方法

Publications (3)

Publication Number Publication Date
JP2015118498A true JP2015118498A (ja) 2015-06-25
JP2015118498A5 JP2015118498A5 (ja) 2016-08-25
JP6251562B2 JP6251562B2 (ja) 2017-12-20

Family

ID=53531178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013260804A Active JP6251562B2 (ja) 2013-12-18 2013-12-18 同一意図の類似文を作成するプログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP6251562B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916304B2 (en) 2016-02-01 2018-03-13 Panasonic Intellectual Property Management Co., Ltd. Method of creating translation corpus
JP2018055670A (ja) * 2016-09-27 2018-04-05 パナソニックIpマネジメント株式会社 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
US10318642B2 (en) 2016-02-01 2019-06-11 Panasonic Intellectual Property Management Co., Ltd. Method for generating paraphrases for use in machine translation system
US10650195B2 (en) 2017-05-23 2020-05-12 Panasonic Intellectual Property Management Co., Ltd. Translated-clause generating method, translated-clause generating apparatus, and recording medium
CN111373391A (zh) * 2017-11-29 2020-07-03 三菱电机株式会社 语言处理装置、语言处理系统和语言处理方法
WO2022244106A1 (ja) * 2021-05-18 2022-11-24 日本電信電話株式会社 データ変換装置、データ変換方法、及び、データ変換プログラム
JP7434125B2 (ja) 2020-09-16 2024-02-20 株式会社東芝 文書検索装置、文書検索方法、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010287020A (ja) * 2009-06-11 2010-12-24 Hitachi Ltd 同義語展開システム及び同義語展開方法
JP2011175574A (ja) * 2010-02-25 2011-09-08 Nippon Hoso Kyokai <Nhk> 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010287020A (ja) * 2009-06-11 2010-12-24 Hitachi Ltd 同義語展開システム及び同義語展開方法
JP2011175574A (ja) * 2010-02-25 2011-09-08 Nippon Hoso Kyokai <Nhk> 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
野崎 徹郎 外1名: "単語の難易度比較を用いた文章簡略化システム", 第74回(平成24年)全国大会講演論文集(2) 人工知能と認知科学, JPN6017022400, 6 March 2012 (2012-03-06), JP, pages 2 - 627, ISSN: 0003581812 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916304B2 (en) 2016-02-01 2018-03-13 Panasonic Intellectual Property Management Co., Ltd. Method of creating translation corpus
US10318642B2 (en) 2016-02-01 2019-06-11 Panasonic Intellectual Property Management Co., Ltd. Method for generating paraphrases for use in machine translation system
JP2018055670A (ja) * 2016-09-27 2018-04-05 パナソニックIpマネジメント株式会社 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
US10650195B2 (en) 2017-05-23 2020-05-12 Panasonic Intellectual Property Management Co., Ltd. Translated-clause generating method, translated-clause generating apparatus, and recording medium
CN111373391A (zh) * 2017-11-29 2020-07-03 三菱电机株式会社 语言处理装置、语言处理系统和语言处理方法
CN111373391B (zh) * 2017-11-29 2023-10-20 三菱电机株式会社 语言处理装置、语言处理系统和语言处理方法
JP7434125B2 (ja) 2020-09-16 2024-02-20 株式会社東芝 文書検索装置、文書検索方法、及びプログラム
WO2022244106A1 (ja) * 2021-05-18 2022-11-24 日本電信電話株式会社 データ変換装置、データ変換方法、及び、データ変換プログラム

Also Published As

Publication number Publication date
JP6251562B2 (ja) 2017-12-20

Similar Documents

Publication Publication Date Title
JP6251562B2 (ja) 同一意図の類似文を作成するプログラム、装置及び方法
US10282468B2 (en) Document-based requirement identification and extraction
US7636657B2 (en) Method and apparatus for automatic grammar generation from data entries
Gräbner et al. Classification of customer reviews based on sentiment analysis
US9524291B2 (en) Visual display of semantic information
US7269544B2 (en) System and method for identifying special word usage in a document
JP5831951B2 (ja) 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
US20130060769A1 (en) System and method for identifying social media interactions
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
US9436681B1 (en) Natural language translation techniques
JP6663826B2 (ja) 計算機及び応答の生成方法
US20180053235A1 (en) Unbiased search and user feedback analytics
US11328712B2 (en) Domain specific correction of output from automatic speech recognition
Ingólfsdóttir et al. Named entity recognition for icelandic: Annotated corpus and models
KR102206781B1 (ko) 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치
JP6049201B2 (ja) 類義語を検出するための共起パターンを生成するプログラム、方法、装置及びサーバ
Baqapuri Twitter sentiment analysis
Melero et al. Holaaa!! writin like u talk is kewl but kinda hard 4 NLP
JP5364529B2 (ja) 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム
Han et al. A Method for Extracting Lexicon for Sentiment Analysis Based on Morphological Sentence Patterns
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
Oudah et al. Studying the impact of language-independent and language-specific features on hybrid Arabic Person name recognition
JP7312841B2 (ja) 法律分析装置、及び法律分析方法
JP6058563B2 (ja) モデル学習装置、フィルタ装置、方法、及びプログラム
Rahamatallah et al. Constructing opinion mining model of sudanese telecom products

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171127

R150 Certificate of patent or registration of utility model

Ref document number: 6251562

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150