JP2015118498A

JP2015118498A - 同一意図の類似文を作成するプログラム、装置及び方法

Info

Publication number: JP2015118498A
Application number: JP2013260804A
Authority: JP
Inventors: 亮翼住友; Ryosuke Sumitomo; 加藤　恒夫; Tsuneo Kato; 恒夫加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2013-12-18
Filing date: 2013-12-18
Publication date: 2015-06-25
Anticipated expiration: 2033-12-18
Also published as: JP6251562B2

Abstract

【課題】シード文を含む同一意図文の集合と、大量の一般文の集合とを参照し、多様な同一意図の類似文を自動的に作成するプログラム等を提供する。
【解決手段】シード文で係り合う第１シード語及び第２シード語を検出し、類義語データベースを用いて、シード語に類似する類義語を検索する。次に、同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出する。次に、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する。そして、シード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する。最後に、シード語と各類義語とが共起する類似文を作成する。
【選択図】図１

Description

本発明は、類似文を作成する技術に関する。

音声対話システムによれば、利用者の意図を表す発話文例を、予め登録しておく必要がある。このとき、同一意図の発話文例であっても、利用者毎に多様に異なるために、多数の発話文例を登録しておかなければならない。

発話文例を大量に収集するために、一般的には、Ｗｅｂサーバ上のブログ(Web log)やＳＮＳ(Social Networking Service)によって公開されたテキストを収集し解析することが考えられる。しかしながら、このような公開されたテキストは、読文例であって、発話文例とは文体が異なる。例えば、意図「メール受信」の発話文「メールは届いていますか」は、Ｗｅｂサーバ上で公開されるテキストには、ほとんど出現しない。

そのために、音声対話システムに登録する発話文例は、人手によって作成するか、又は、そのシステムのログデータから発話内容を人手によって書き起こす必要がある。これらの作業には、多大な人手によるコストがかかり、人手の個人差による発話文例の偏りも問題となる。

これに対し、従来、人手で作成した発話文から新しい文を生成し、その意図に基づいて分類された発話文を拡充する技術がある（例えば特許文献１参照）。この技術によれば、意図の関係性に応じて階層化された意図階層データを用いる。上位下位関係・兄弟関係にある意図に対応付いたテキストから、一致部分及び不一致部分を抽出し、上位下位関係又は兄弟関係のいずれか一方の意図を表す新たなテキストを生成する。

例えばカーナビの機器操作に関する意図として、以下のような意図階層データがあるとする。
上位意図「指定なしのルート変更意図」とそれに属する文「ルートを選択したい」、
->下位意図「一般道優先のルート変更意図」
それに属する文「一般道優先ルートを選択」、「下道で行く」、
->下位意図「有料道優先のルート変更意図」
それに属する文「有料優先ルートで行く」、「有料優先ルートがいいな」
この場合、これらの階層に属する文の一致部分と不一致部分から、以下のような新しい文を生成することで、発話文を拡充する。
->下位意図「一般道優先のルート変更意図」
それに属する文「一般道優先ルートがいいな」、「下道がいいな」
->下位意図「有料道優先のルート変更意図」
それに属する文「有料優先ルートを選択」、「有料優先ルートを選択」

また、複数の文例が格納されたデータベースから、入力文と類似する文例を抽出し、その文例内の単語を置き換えた文を生成する技術がある（例えば特許文献２参照）。この技術によれば、入力文及びデータベース内の文例に出現する各名詞に対して、単語に対応する複数段階に分類された意味分類情報を保持する単語意味辞書を用いる。そして、入力文に出現する名詞集合とデータベース内の各文例に出現する名詞集合との全組み合わせについて、各名詞の意味分類情報の一致度によるスコアを算出し、入力文と最も類似する文例を導出する。最も類似した文例中の各名詞について、入力文の各名詞との意味分類情報の一致度によって、置換可能と判定した際に、名詞を置換した文を新たに生成する。

特開２０１２−１６４２６７号公報特開２００１−２５６２２２号公報

特許文献１に記載の技術によれば、意図の適切な上位下位階層を前提としている。しかしながら、上位下位階層によっては不自然な文を生成する場合がある。
上位意図「メール作成意図」とそれに属する文「新規メール」
->下位意図「返信メール作成意図」
それに属する文「メールを返信する」
この場合、下位意図に「新規メールを返信する」といった不自然な文が生成される。
また、特許文献１に記載の技術によれば、上位意図に対しては文を生成することができない。

また、特許文献２に記載に技術によれば、単語意味辞書を用いて文の類似度算出及び置換判定をする。しかしながら、単語の意味は出現する文脈によって異なる場合があり、不適切に置換する可能性がある。

そこで、本発明は、シード文を含む同一意図文の集合と、大量の一般文の集合とを参照し、多様な同一意図の類似文を自動的に作成することができるプログラム、装置及び方法を提供することを目的とする。

本発明によれば、同一意図の類似文を作成するようにコンピュータを機能させるプログラムであって、
任意の同一意図文をシード文の中で係り合うシード語を検出するシード文解析手段と、
類義語データベースを用いて、シード語に類似する１つ以上の類義語を検索する類義語検索手段と、
同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出するシード語共起ベクトル算出手段と、
大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する類義語共起ベクトル算出手段と、
シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する類義語選択手段と、
シード語と各類義語とが共起する類似文を作成する類似文作成手段と
してコンピュータを機能させることを特徴とする。

本発明のプログラムにおける他の実施形態によれば、
シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第１シード語及び第２シード語を検出し、
類義語検索手段は、類義語データベースを用いて、第１シード語に類似する１つ以上の第１類義語と、第２シード語に類似する１つ以上の第２類義語とを検索し、
シード語共起ベクトル算出手段は、同一意図文の集合を参照し、各文脈語をベクトルの要素として、第１シード語に係る各文脈語の出現頻度からなる第１シード語共起ベクトルと、第２シード語に係る各文脈語の出現頻度からなる第２シード語共起ベクトルとを算出し、
類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第１類義語に係る各文脈語の出現頻度からなる第１類義語共起ベクトルと、各第２類義語に係る各文脈語の出現頻度からなる第２類義語共起ベクトルとを算出し、
類義語選択手段は、第１シード語に対する第１シード語共起ベクトルと比較して所定閾値以上の類似度となる第１類義語共起ベクトルの第１類義語と、第２シード語に対する第２シード語共起ベクトルと比較して所定閾値以上の類似度となる第２類義語共起ベクトルの第２類義語とを選択し、
類似文作成手段は、第１シード語と各第２類義語とが共起する類似文と、各第１類義語と第２シード語と共起する類似文とを作成する
してコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
各共起ベクトルは、各文脈語の出現頻度から相互情報量基準によって共起強度を算出し、該共起強度を正規化した値を要素に対応付けたものである
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
類義語選択手段は、選択すべき類義語を所定個数以下とする
ようにコンピュータを機能させることも好ましい。

本発明によれば、同一意図の類似文を作成する装置であって、
任意の同一意図文をシード文の中で係り合うシード語を検出するシード文解析手段と、
類義語データベースを用いて、シード語に類似する１つ以上の類義語を検索する類義語検索手段と、
同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出するシード語共起ベクトル算出手段と、
大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する類義語共起ベクトル算出手段と、
シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する類義語選択手段と、
シード語と各類義語とが共起する類似文を作成する類似文作成手段と
してコンピュータを機能させることを特徴とする。

本発明の装置における他の実施形態によれば、
シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第１シード語及び第２シード語を検出し、
類義語検索手段は、類義語データベースを用いて、第１シード語に類似する１つ以上の第１類義語と、第２シード語に類似する１つ以上の第２類義語とを検索し、
シード語共起ベクトル算出手段は、同一意図文の集合を参照し、各文脈語をベクトルの要素として、第１シード語に係る各文脈語の出現頻度からなる第１シード語共起ベクトルと、第２シード語に係る各文脈語の出現頻度からなる第２シード語共起ベクトルとを算出し、
類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第１類義語に係る各文脈語の出現頻度からなる第１類義語共起ベクトルと、各第２類義語に係る各文脈語の出現頻度からなる第２類義語共起ベクトルとを算出し、
類義語選択手段は、第１シード語に対する第１シード語共起ベクトルと比較して所定閾値以上の類似度となる第１類義語共起ベクトルの第１類義語と、第２シード語に対する第２シード語共起ベクトルと比較して所定閾値以上の類似度となる第２類義語共起ベクトルの第２類義語とを選択し、
類似文作成手段は、第１シード語と各第２類義語とが共起する類似文と、各第１類義語と第２シード語と共起する類似文とを作成する
ことも好ましい。

本発明によれば、装置を用いて、同一意図の類似文を作成する方法であって、
任意の同一意図文をシード文の中で係り合うシード語を検出する第１のステップと、
類義語データベースを用いて、シード語に類似する１つ以上の類義語を検索する第２のステップと、
同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出する第３のステップと、
大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する第４のステップと、
シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する第５のステップと、
シード語と各類義語とが共起する類似文を作成する第６のステップと
を有することを特徴とする。

本発明の方法における他の実施形態によれば、
第１のステップは、シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第１シード語及び第２シード語を検出し、
第２のステップは、類義語データベースを用いて、第１シード語に類似する１つ以上の第１類義語と、第２シード語に類似する１つ以上の第２類義語とを検索し、
第３のステップは、同一意図文の集合を参照し、各文脈語をベクトルの要素として、第１シード語に係る各文脈語の出現頻度からなる第１シード語共起ベクトルと、第２シード語に係る各文脈語の出現頻度からなる第２シード語共起ベクトルとを算出し、
第４のステップは、類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第１類義語に係る各文脈語の出現頻度からなる第１類義語共起ベクトルと、各第２類義語に係る各文脈語の出現頻度からなる第２類義語共起ベクトルとを算出し、
第５のステップは、第１シード語に対する第１シード語共起ベクトルと比較して所定閾値以上の類似度となる第１類義語共起ベクトルの第１類義語と、第２シード語に対する第２シード語共起ベクトルと比較して所定閾値以上の類似度となる第２類義語共起ベクトルの第２類義語とを選択し、
第６のステップは、類似文作成手段は、第１シード語と各第２類義語とが共起する類似文と、各第１類義語と第２シード語と共起する類似文とを作成する
ことも好ましい。

本発明のプログラム、装置及び方法によれば、シード文を含む同一意図文の集合と、大量の一般文の集合とを参照し、多様な同一意図の類似文を自動的に抽出することができる。

本発明におけるプログラムの機能構成図である。一般文データベースに蓄積されたデータ構造を表す説明図である。同一意図文データベースに蓄積されたデータ構造を表す説明図である。類義語データベースに蓄積されたデータ構造を表す説明図である。第１シード共起ベクトル及び第１類義語共起ベクトルを表す説明図である。第２シード共起ベクトル及び第２類義語共起ベクトルを表す説明図である。本発明における類似文作成装置を含むシステム構成図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明におけるプログラムの機能構成図である。

図１によれば、類似文作成装置１に搭載されたコンピュータを機能させるプログラムの構成が表されており、一般文データベース１０１と、同一意図文データベース１０２と、類義語データベース１０３とを有する。

［一般文データベース１０１］
一般文データベース１０１は、大量の一般文（テキストデータ）を蓄積する。大量の一般文は、マスメディアによって配信されたものや、Ｗｅｂサーバ上のブログやＳＮＳによって発信されたものである。

図２は、一般文データベースに蓄積されたデータ構造を表す説明図である。

図２（ａ）によれば、一般文データベース１０１に蓄積された一般文のデータ構造が表されている。一般文データベースは１０１は、文毎に、文頭単語ＢＯＳと文末単語ＥＯＳとの間で複数の形態素に区分し、その単語ｗ、表記及び品詞が対応付けて記憶する。形態素解析とは、文法及び単語辞書を情報源として用いて、自然言語で書かれた文を言語として意味を持つ最小単位である形態素(Morpheme)に分割する技術をいう。また、形態素毎の品詞も判別することができる。
文：「父からＣメールが届きました」
ＢＯＳ／父／から／Ｃメール／が／届き／まし／た／ＥＯＳ
文：「設定された地点まで到達しないと完了しない」
ＢＯＳ／設定さ／れ／た／地点／まで／到達し／ない／と
／完了し／ない／ＥＯＳ
尚、文節毎に文節ＩＤが付与されて、係り元文節から見て、係り先文節の文節ＩＤが対応付けられている（係り先が無い場合には−１が付与されている）。

図２（ｂ）によれば、図２（ａ）で区分された複数の形態素から抽出した、共起対（係り受け対）が表されている。共起対とは、以下のような３つの組からなるデータ構造をいう。
共起対（ｗ１，ｗ２，ｗ３）
ｗ１：係り元の名詞・動詞・形容詞
ｗ２：係り先の連続する助詞・助動詞列（機能語）
ｗ３：係り先の名詞・動詞・形容詞

図２（ｃ）によれば、図２（ｂ）の共起対毎に、一般文データベース全体における出現頻度Ｃを対応付けたデータ構造が表されている。ここで、１つの共起対について、以下のように２つに区分して記憶される。
共起対（ｗ１，ｗ２，ｗ３）
［単語］->［文脈語］
ｗ１->（Ｌ＿＋ｗ２；ｗ３）：ｗ１に後置するｗ２とｗ３との対
ｗ３->（Ｆ＿＋ｗ１；ｗ２）：ｗ３に前置するｗ１とｗ２との対
図２（ｃ）によれば、共起対毎に以下のように区分され、出現頻度が表されている。
共起対（父，から，届く）：出現頻度１２３回
父 ->（Ｌ＿＋から；届く）
届く ->（Ｆ＿＋父；から）
共起対（Ｃメール，が，届く）：出現頻度３２６回
Ｃメール->（Ｌ＿＋が；届く）
届く ->（Ｆ＿＋Ｃメール；が）
尚、一般文データベース全体の中での各単語ｗの出現頻度Ｃ(ｗ)を記憶すると共に、全単語の出現数Ｃ（＊）も記憶する。

［同一意図文データベース１０１］
同一意図文データベース１０１は、複数の同一意図文（例えば発話文例）の集合を登録したものである。

図３は、同一意図文データベースに蓄積されたデータ構造を表す説明図である。

図３（ａ）によれば、同一意図文データベース１０２は、例えば以下のような同一意図となる文の集合を蓄積している。そして、前述した図２（ａ）と同様に、同一意図文毎に、文頭単語ＢＯＳと文末単語ＥＯＳとの間で複数の形態素に区分し、その単語ｗ、表記及び品詞を対応付けて記憶する。
文：「メールは届いていますか」
ＢＯＳ／メール／は／届い／て／い／ます／か／ＥＯＳ
文：「Ｅメールを確認したい」
ＢＯＳ／Ｅメール／を／確認し／たい／ＥＯＳ

図３（ｂ）によれば、前述した図２（ｂ）と同様に、複数の形態素から抽出した共起対（係り受け対）が表されている。
共起対（メール，は，届く）：出現頻度２４回
メール ->（Ｌ＿＋は；届く）
届く ->（Ｆ＿＋メール；は）
共起対（Ｅメール，を，確認する）：出現頻度１１回
Ｅメール->（Ｌ＿＋を；確認する）
確認する->（Ｆ＿＋Ｅメール；を）
尚、同一意図文データベース全体の中での各単語ｗの出現頻度Ｃ(ｗ)を記憶すると共に、全単語の出現数Ｃ（＊）も記憶する。

［類義語データベース１０３］
類義語データベース１０３は、各単語に対する類義語を登録した既存のデータベースである。

図４は、類義語データベースに蓄積されたデータ構造を表す説明図である。

図４によれば、以下の単語群は、同一意図を表すものであるとして登録されている。
・「新しい」「斬新」「新型」「新着」「新規」「新鮮」「目新しい」
・「メッセージ」「郵便」「Ｃメール」「メール」「伝言」「手紙」「Ｅメール」「ショートメール」
・「至る」「到着する」「届く」「来る」「受信する」「着信する」「受け取る」「到達する」

図１によれば、プログラムとして、シード文解析部１１と、類義語検索部１２と、シード語共起ベクトル算出部１３と、類義語共起ベクトル算出部１４と、類義語選択部１５と、類似文作成部１６とを有する。これら機能構成部は、類似文作成装置に搭載されたコンピュータを機能させるプログラムとして実行することによって実現される。

［シード文解析部１１］
シード文解析部１１は、任意の同一意図文をシード文の中で係り合うシード語を検出する。具体的には、任意の同一意図文をシード文として、その中で係り合う第１シード語及び第２シード語を検出する。図３の同一意図文データベース１０２から、以下の同一意図文をシード文としたとする。
シード文：「メールは届いていますか」
ＢＯＳ／メール／は／届い／て／い／ます／か／ＥＯＳ
第１シード語「メール」
第２シード語「届く」
「シード文」とは「種」文を意味し、そのシード文の中で係り合う第１シード語及び第２シード語が検出される。

［類義語検索部１２］
類義語検索部１２は、類義語データベース１０３を用いて、シード語に類似する１つ以上の類義語を検索する。具体的には、第１シード語に類似する１つ以上の第１類義語と、第２シード語に類似する１つ以上の第２類義語とを検索する。
図４によれば、第１シード語「メール」及び第２シード語「届く」について、以下のような類義語が検索される。
第１シード語「メール」「は」第２シード語「届く」
->第１類義語「メッセージ」 ->第２類義語「至っ」
「郵便」「到着し」
「Ｃメール」「来る」
「伝言」「受信し」
「手紙」「着信し」
「Ｅメール」「受け取っ」
「ショートメール」「到達し」
これら類義語は、シード文に対する類似文を作成する際に、置換候補となる語である。

［シード語共起ベクトル算出部１３］
シード語共起ベクトル算出部１３は、同一意図文データベース１０２を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出する。具体的には、以下の共起ベクトルを算出する。
「第１シード語共起ベクトル」第１シード語に係る各文脈語の出現頻度からなる
「第２シード語共起ベクトル」第２シード語に係る各文脈語の出現頻度からなる

［類義語共起ベクトル算出部１４］
類義語共起ベクトル算出部１４は、一般文データベース１０１を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する。具体的には、以下の共起ベクトルを算出する。
「第１類義語共起ベクトル」各第１類義語に係る各文脈語の出現頻度からなる
「第２類義語共起ベクトル」各第２類義語に係る各文脈語の出現頻度からなる

図５は、第１シード共起ベクトル及び第１類義語共起ベクトルを表す説明図である。

図５（ａ）によれば、同一意図文データベース１０２を用いて、第１シード語「メール」及び各文脈語の共起対に対する出現頻度、共起強度及び共起ベクトルが表されている。
図５（ｂ）によれば、一般文データベース１０１を用いて、各第１類義語及び各文脈語の共起対に対する出現頻度、共起強度及び共起ベクトルが表されている。
ここで、共起ベクトルの要素となる文脈語の並びは、全ての共起ベクトルで共通である。従って、文脈語の数を次元数とするベクトルとして表される。

図６は、第２シード共起ベクトル及び第２類義語共起ベクトルを表す説明図である。

図６（ａ）によれば、同一意図文データベース１０２を用いて、第２シード語「届く」及び各文脈語の共起対に対する出現頻度、共起強度及び共起ベクトルが表されている。
図６（ｂ）によれば、一般文データベース１０１を用いて、各第２類義語及び各文脈語の共起対に対する出現頻度、共起強度及び共起ベクトルが表されている。

共起ベクトルの要素値は、以下のステップによって算出される。
（Ｓ１）最初に、データベース全体の中で、単語ｗ及び各文脈語が出現する出現頻度Ｃ(ｗ,ｓ)を算出する。

（Ｓ２）単語ｗ毎に各文脈語ｓの出現頻度に基づく共起強度pmi(ｗ,ｓ)を算出する。共起強度pmi(ｗ,ｓ)は、例えば相互情報量(Mutual information)基準によって算出する。相互情報量基準とは、例えば２つの確率変数の相互依存の尺度を表す確率的手法をいう。

具体的には、単語ｗ及び文脈語ｓ毎に、以下の式によって値を算出する。
pmi(ｗ，ｓ)＝log₂｛（Ｃ(＊)・Ｃ(ｗ,ｓ)）／（Ｃ(ｗ)・Ｃ(ｓ)）｝
図５（ａ）によれば、例えば以下のように算出されている。
pmi（メール，（Ｌ＿を：書く））
＝log₂｛(Ｃ(＊)・Ｃ(メール，(Ｌ＿を：書く))／
(Ｃ(メール)・Ｃ(Ｌ＿を：書く))｝

（Ｓ３）そして、単語ｗ毎に、各共起強度pmi(ｗ,ｓ)を正規化した値を算出する。これによって、単語ｗ毎に、各文脈語を要素とした要素値の共起ベクトルを算出することができる。勿論、共起強度は、相互情報量基準に限られることなく、他の共起強度の指標T-pmiを用いることもできる。

［類義語選択部１５］
類義語選択部１５は、シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する。具体的には、以下のような第１類義語と第２類義語とを選択する。
（１）第１シード語に対する第１シード語共起ベクトルと比較して所定閾値以上の類似度となる第１類義語共起ベクトルの第１類義語
（２）第２シード語に対する第２シード語共起ベクトルと比較して所定閾値以上の類似度となる第２類義語共起ベクトルの第２類義語

「類似度」とは、ｃｏｓ類似度（余弦類似度）であってもよい。ｃｏｓ類似度とは、ベクトル同士の成す角度の近さを表現し、１に近ければ類似しており、０に近ければ類似していないことになる。勿論、相関係数のような、一般的な他のベクトル間類似度を算出する方法を用いることもできる。

図５及び図６によれば、最終的に、類似度が所定閾値０．０５以上の類似度となる類義語が選択される。その中でも、類似度が上位ｎ個の類義語のみを選択するものであってもよい。
例えば類義語候補「手紙」は、第１シード語「メール」と比較して文章中での使われ方が異なるために、共起類似度は低い値となる。
例えば類義語候補「来る」は、第１シード語「届く」と比較して文章中での使われ方が異なるために、共起類似度は低い値となる。

［類似文作成部１６］
類似文作成部１６は、シード語と各類義語とが共起する類似文を作成する。具体的には、第１シード語と各第２類義語とが共起する類似文と、各第１類義語と第２シード語と共起する類似文とを作成する。
シード文「メールは届いていますか」
「Ｅメール」「は」「届いていますか」
「Ｃメール」「は」「届いていますか」
「ショートメール」「は」「届いていますか」
「メッセージ」「は」「届いていますか」
「メール」「は」「受信していますか」
「Ｅメール」「は」「受信していますか」
・・・・・
「メール」「は」「到着していますか」
「Ｅメール」「は」「到着していますか」
・・・・・
「メール」「は」「着信していますか」
「Ｅメール」「は」「着信していますか」
・・・・・
「メール」「は」「受け取っていますか」
「Ｅメール」「は」「受け取っていますか」
・・・・・

シード文「メールは届いていますか」に出現する「届く」を置換する場合、類義語として「着信する」「到着する」は同一意図と考えられる。一方で、類義語として「至る」「到達する」は同一意図として適切ではない。
×「メールは至っていますか」
×「メールは到達していますか」
本発明によれば、シード文「メールは届いていますか」に対して、類義語「至る」「到達する」等が除外されることとなる。

図７は、本発明における類似文作成装置を含むシステム構成図である。

図７によれば、前述した類似文作成装置（装置）が、インターネットのようなネットワークに接続されている。インターネットには、マスメディアサーバや、ブログサーバ、ＳＮＳサーバ等が接続されている。マスメディアサーバは、一定の質を保った文章を公開する。また、ブログサーバやＳＮＳサーバは、ユーザ端末から発信された投稿文章を公開する。特に、個人によって投稿された文章は、個人が様々な社会的又は文化的な話題について意見及び感想を述べたものであって、時代背景を最も反映したものであることが多い。類似文作成装置１は、これら外部サーバ３から、文章（テキストデータ）を収集することができる。勿論、類似文作成装置１は、予め大量の文章をディスクに蓄積したものであってもよい。

また、ユーザ端末２から、類似文作成装置１へ、ユーザによって入力されたシード文をクエリとして要求することができる。これに対し、類似文作成装置１は、前述した図１の処理によって作成した類似文を応答することができる。このようなシーケンスは、ユーザ端末２にインストールされた言語アプリケーションによって利用することができる。

以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、シード文を含む同一意図文の集合と、大量の一般文の集合とを参照し、多様な同一意図の類似文を自動的に作成することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１類似文作成装置
１０１一般文データベース
１０２同一意図文データベース
１０３類義語データベース
１１シード文解析部
１２類義語検索部
１３シード語共起ベクトル算出部
１４類義語共起ベクトル算出部
１５類義語選択部
１６類似文作成部
２ユーザ端末
３外部サーバ

Claims

同一意図の類似文を作成するようにコンピュータを機能させるプログラムであって、
任意の同一意図文をシード文の中で係り合うシード語を検出するシード文解析手段と、
類義語データベースを用いて、シード語に類似する１つ以上の類義語を検索する類義語検索手段と、
前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出するシード語共起ベクトル算出手段と、
大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する類義語共起ベクトル算出手段と、
シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する類義語選択手段と、
シード語と各類義語とが共起する類似文を作成する類似文作成手段と
してコンピュータを機能させることを特徴とするプログラム。
前記シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第１シード語及び第２シード語を検出し、
前記類義語検索手段は、類義語データベースを用いて、第１シード語に類似する１つ以上の第１類義語と、第２シード語に類似する１つ以上の第２類義語とを検索し、
前記シード語共起ベクトル算出手段は、前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、第１シード語に係る各文脈語の出現頻度からなる第１シード語共起ベクトルと、第２シード語に係る各文脈語の出現頻度からなる第２シード語共起ベクトルとを算出し、
前記類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第１類義語に係る各文脈語の出現頻度からなる第１類義語共起ベクトルと、各第２類義語に係る各文脈語の出現頻度からなる第２類義語共起ベクトルとを算出し、
前記類義語選択手段は、第１シード語に対する第１シード語共起ベクトルと比較して所定閾値以上の類似度となる第１類義語共起ベクトルの第１類義語と、第２シード語に対する第２シード語共起ベクトルと比較して所定閾値以上の類似度となる第２類義語共起ベクトルの第２類義語とを選択し、
前記類似文作成手段は、第１シード語と各第２類義語とが共起する類似文と、各第１類義語と第２シード語と共起する類似文とを作成する
してコンピュータを機能させることを特徴とする請求項１に記載のプログラム。
各共起ベクトルは、各文脈語の出現頻度から相互情報量基準によって共起強度を算出し、該共起強度を正規化した値を前記要素に対応付けたものである
ようにコンピュータを機能させることを特徴とする請求項１又は２に記載のプログラム。
前記類義語選択手段は、選択すべき類義語を所定個数以下とする
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載のプログラム。
同一意図の類似文を作成する装置であって、
任意の同一意図文をシード文の中で係り合うシード語を検出するシード文解析手段と、
類義語データベースを用いて、シード語に類似する１つ以上の類義語を検索する類義語検索手段と、
前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出するシード語共起ベクトル算出手段と、
大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する類義語共起ベクトル算出手段と、
シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する類義語選択手段と、
シード語と各類義語とが共起する類似文を作成する類似文作成手段と
してコンピュータを機能させることを特徴とする装置。
前記シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第１シード語及び第２シード語を検出し、
前記類義語検索手段は、類義語データベースを用いて、第１シード語に類似する１つ以上の第１類義語と、第２シード語に類似する１つ以上の第２類義語とを検索し、
前記シード語共起ベクトル算出手段は、前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、第１シード語に係る各文脈語の出現頻度からなる第１シード語共起ベクトルと、第２シード語に係る各文脈語の出現頻度からなる第２シード語共起ベクトルとを算出し、
前記類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第１類義語に係る各文脈語の出現頻度からなる第１類義語共起ベクトルと、各第２類義語に係る各文脈語の出現頻度からなる第２類義語共起ベクトルとを算出し、
前記類義語選択手段は、第１シード語に対する第１シード語共起ベクトルと比較して所定閾値以上の類似度となる第１類義語共起ベクトルの第１類義語と、第２シード語に対する第２シード語共起ベクトルと比較して所定閾値以上の類似度となる第２類義語共起ベクトルの第２類義語とを選択し、
前記類似文作成手段は、第１シード語と各第２類義語とが共起する類似文と、各第１類義語と第２シード語と共起する類似文とを作成する
ことを特徴とする請求項５に記載の装置。
装置を用いて、同一意図の類似文を作成する方法であって、
任意の同一意図文をシード文の中で係り合うシード語を検出する第１のステップと、
類義語データベースを用いて、シード語に類似する１つ以上の類義語を検索する第２のステップと、
前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、シード語に係る各文脈語の出現頻度からなるシード語共起ベクトルを算出する第３のステップと、
大量の一般文集合を参照し、各文脈語をベクトルの要素として、各類義語に係る各文脈語の出現頻度からなる類義語共起ベクトルを算出する第４のステップと、
シード語に対するシード語共起ベクトルと比較して所定閾値以上の類似度となる類義語共起ベクトルの類義語を選択する第５のステップと、
シード語と各類義語とが共起する類似文を作成する第６のステップと
を有することを特徴とする方法。
第１のステップは、前記シード文解析手段は、任意の同一意図文をシード文として、その中で係り合う第１シード語及び第２シード語を検出し、
第２のステップは、類義語データベースを用いて、第１シード語に類似する１つ以上の第１類義語と、第２シード語に類似する１つ以上の第２類義語とを検索し、
第３のステップは、前記同一意図文の集合を参照し、各文脈語をベクトルの要素として、第１シード語に係る各文脈語の出現頻度からなる第１シード語共起ベクトルと、第２シード語に係る各文脈語の出現頻度からなる第２シード語共起ベクトルとを算出し、
第４のステップは、前記類義語共起ベクトル算出手段は、大量の一般文集合を参照し、各文脈語をベクトルの要素として、各第１類義語に係る各文脈語の出現頻度からなる第１類義語共起ベクトルと、各第２類義語に係る各文脈語の出現頻度からなる第２類義語共起ベクトルとを算出し、
第５のステップは、第１シード語に対する第１シード語共起ベクトルと比較して所定閾値以上の類似度となる第１類義語共起ベクトルの第１類義語と、第２シード語に対する第２シード語共起ベクトルと比較して所定閾値以上の類似度となる第２類義語共起ベクトルの第２類義語とを選択し、
第６のステップは、前記類似文作成手段は、第１シード語と各第２類義語とが共起する類似文と、各第１類義語と第２シード語と共起する類似文とを作成する
ことを特徴とする請求項７に記載の方法。