JP6757840B2

JP6757840B2 - 文抽出システム、文抽出方法、及びプログラム

Info

Publication number: JP6757840B2
Application number: JP2019183761A
Authority: JP
Inventors: 昌克 ▲浜▼下; 孝司乾; 浩司村上
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2019-03-01
Filing date: 2019-10-04
Publication date: 2020-09-23
Anticipated expiration: 2039-10-04
Also published as: US11526674B2; US20200279018A1; JP2020140692A

Description

本発明は、文章抽出システム、文章抽出方法、及びプログラムに関する。

従来、自然言語処理分野において、文章を解析する技術が検討されている。例えば、特許文献１には、疑問文の一部が空欄部分として設定されたテンプレートを予め用意しておき、入力文から疑問文を生成する疑問文生成器に入力文が入力された場合に、入力文に含まれる単語をテンプレートの空欄部分に挿入することによって疑問文を生成するコンピュータが記載されている。

特開２０１７−２７２３３号公報

しかしながら、疑問文生成器には、多数の入力文が入力され、疑問文を生成するのに適した特徴的な表現が全ての入力文に含まれているとは限らない。特許文献１の技術では、入力文に含まれる単語をテンプレートの空欄部分に当てはめるだけなので、特徴的な表現を含まない入力文が疑問文生成器に入力されると、何を問いたいのか分からない疑問文が生成され、疑問文の精度を十分に高めることができないことがあった。

本発明は上記課題に鑑みてなされたものであって、その目的は、疑問文生成器に生成させる疑問文の精度を高めることが可能な文章抽出システム、文章抽出方法、及びプログラムを提供することである。

上記課題を解決するために、本発明に係る文章抽出システムは、複数の文章を取得する文章取得手段と、前記複数の文章に含まれる、少なくとも１つの特徴的な表現を特定する特定手段と、前記少なくとも１つの特徴的な表現に基づいて、前記複数の文章の中から、入力文から疑問文を生成する疑問文生成器に入力される少なくとも１つの文章を抽出する抽出手段と、を含むことを特徴とする。

本発明に係る文章抽出方法は、複数の文章を取得する文章取得ステップと、前記複数の文章に含まれる、少なくとも１つの特徴的な表現を特定する特定ステップと、前記少なくとも１つの特徴的な表現に基づいて、前記複数の文章の中から、入力文から疑問文を生成する疑問文生成器に入力される少なくとも１つの文章を抽出する抽出ステップと、を含むことを特徴とする。

本発明に係るプログラムは、複数の文章を取得する文章取得手段、前記複数の文章に含まれる、少なくとも１つの特徴的な表現を特定する特定手段、前記少なくとも１つの特徴的な表現に基づいて、前記複数の文章の中から、入力文から疑問文を生成する疑問文生成器に入力される少なくとも１つの文章を抽出する抽出手段、としてコンピュータを機能させる。

また、本発明の一態様では、前記文章抽出システムは、前記疑問文生成器を記憶する記憶手段と、前記少なくとも１つの文章を前記疑問文生成器に入力する入力手段と、前記疑問文生成器により生成された少なくとも１つの疑問文を取得する疑問文取得手段と、を更に含むことを特徴とする。

また、本発明の一態様では、前記特定手段は、前記複数の文章に含まれる、複数の特徴的な表現を特定し、前記抽出手段は、抽出される文章全体に含まれる特徴的な表現が多くなるように、前記少なくとも１つの文章を抽出する、ことを特徴とする。

また、本発明の一態様では、前記特定手段は、前記複数の文章に含まれる、複数の特徴的な表現を特定し、前記抽出手段は、所定の条件に基づいて、前記複数の特徴的な表現の中から、文章の抽出に使用される少なくとも１つの特徴的な表現を決定し、前記決定された少なくとも１つの特徴的な表現を含む、前記少なくとも１つの文章を抽出する、ことを特徴とする。

また、本発明の一態様では、前記抽出手段は、抽出される文章の分量が所定の範囲に収まるように、前記少なくとも１つの文章を抽出する、ことを特徴とする。

また、本発明の一態様では、前記抽出手段は、前記少なくとも１つの特徴的な表現の生起確率を取得し、前記生起確率に基づいて、前記少なくとも１つの文章を抽出する、ことを特徴とする。

また、本発明の一態様では、前記抽出手段は、前記少なくとも１つの特徴的な表現の係り受け距離を取得し、前記係り受け距離に基づいて、前記少なくとも１つの文章を抽出する、ことを特徴とする。

また、本発明の一態様では、前記抽出手段は、前記複数の文章の中から、前記少なくとも１つの特徴的な表現を含み、かつ、当該表現の数と係り受け語の数とが一致する少なくとも１つの文章を抽出する、ことを特徴とする。

また、本発明の一態様では、前記抽出手段は、前記複数の文章の中から、前記少なくとも１つの特徴的な表現を含み、かつ、当該表現の係り受けの語の数が所定の範囲に収まる少なくとも１つの文章を抽出する、ことを特徴とする。

また、本発明の一態様では、前記抽出手段は、前記複数の文章の中から、前記少なくとも１つの特徴的な表現を含み、かつ、当該表現の数が所定の範囲に収まる少なくとも１つの文章を抽出する、ことを特徴とする。

また、本発明の一態様では、前記抽出手段は、抽出される文章の中に、同じ表現を含む文章の数が所定の範囲に収まるように、前記少なくとも１つの文章を抽出する、ことを特徴とする。

また、本発明の一態様では、前記複数の文章の各々は、評価対象のレビューであり、前記少なくとも１つの特徴的な表現は、前記評価対象の特徴を示し、前記疑問文は、レビューの入力をユーザに促すための文章である、ことを特徴とする。

また、本発明の一態様では、前記評価対象は、複数の属性の少なくとも１つに属し、前記文章取得手段は、前記属性ごとに、複数のレビューを取得し、前記特定手段は、前記属性ごとに、前記少なくとも１つの特徴的な表現を特定し、前記抽出手段は、前記属性ごとに、前記複数のレビューの中から、前記少なくとも１つのレビューを抽出する、ことを特徴とする。

また、本発明の一態様では、取得される前記複数の文章の各々は、少なくとも１つの文を含み、抽出される前記少なくとも１つの文章の各々は、前記複数の文章に含まれる何れかの文である、ことを特徴とする。

本発明によれば、疑問文生成器に生成させる疑問文の精度を高めることができる。

文章抽出システムの全体構成を示す図である。文章抽出システムが実行する処理の概要を示す図である。発明者達が行った実験結果を示す図である。文章抽出システムで実現される機能の一例を示す機能ブロック図である。文章データベースのデータ格納例を示す図である。辞書データベースのデータ格納例を示す図である。疑問文データベースのデータ格納例を示す図である。疑問文が出力される様子を示す図である。サーバによって実行される処理を示すフロー図である。

［１．文章抽出システムの全体構成］
以下、本発明に関わる文章抽出システムの実施形態の例を説明する。図１は、文章抽出システムの全体構成を示す図である。図１に示すように、文章抽出システム１は、サーバ１０及びユーザ端末２０を含み、これらはインターネットなどのネットワークＮに接続される。図１では、サーバ１０及びユーザ端末２０を１台ずつ示しているが、これらは複数台あってもよい。

サーバ１０は、サーバコンピュータであり、例えば、制御部１１、記憶部１２、及び通信部１３を含む。制御部１１は、少なくとも１つのプロセッサを含む。制御部１１は、記憶部１２に記憶されたプログラムやデータに従って処理を実行する。記憶部１２は、主記憶部及び補助記憶部を含む。例えば、主記憶部はＲＡＭなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信部１３は、有線通信又は無線通信用の通信インタフェースを含み、例えば、ネットワークＮを介してデータ通信を行う。

ユーザ端末２０は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末（タブレット型コンピュータを含む）、又は携帯電話機（スマートフォンを含む）等である。ユーザ端末２０は、制御部２１、記憶部２２、通信部２３、操作部２４、及び表示部２５を含む。制御部２１、記憶部２２、及び通信部２３のハードウェア構成は、それぞれ制御部１１、記憶部１２、及び通信部１３と同様であってよい。操作部２４は、入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等である。操作部２４は、ユーザの操作内容を制御部２１に伝達する。表示部２５は、例えば、液晶表示部又は有機ＥＬ表示部等である。

なお、記憶部１２，２２に記憶されるものとして説明するプログラム及びデータは、ネットワークを介してこれらに供給されるようにしてもよい。また、サーバ１０及びユーザ端末２０の各々のハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、サーバ１０及びユーザ端末２０の各々は、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、光ディスクドライブやメモリカードスロット）や外部機器と直接的に接続するための入出力部（例えば、ＵＳＢ端子）を含んでもよい。この場合、情報記憶媒体に記憶されたプログラムやデータが読取部又は入出力部を介して、サーバ１０及びユーザ端末２０の各々に供給されるようにしてもよい。

［２．文章抽出システムの概要］
文章抽出システム１は、複数の文章の中から、疑問文生成器に入力される少なくとも１つの文章を抽出する。

文章は、文字列を含む情報のまとまりである。文章は、１つの文だけで構成されてもよいし、複数の文を含んでもよい。文とは、句点、ピリオド、感嘆符、又は疑問符などで終わる（区切られる）一続きの言葉を示す。本実施形態では、１つの文だけで構成される文章については、文章と文は同じ意味になるが、複数の文で構成される文章については、文章は、これら複数の文全体を意味する。文章は、任意の言語で記述されてよく、例えば、英語、日本語、中国語、スペイン語、フランス語、又はアラビア語などであってもよい。また、文章には、任意の内容が記述されてよく、例えば、ＳＮＳの投稿、掲示板の投稿、動画や記事などのコンテンツに対するコメント、商品若しくはサービスなどに対するレビュー、又は、電子メール若しくはメッセージアプリなどにおけるメッセージであってもよい。本実施形態では、多数のユーザにより入力された多数の文章がサーバ１０に記憶され、その一部が疑問文生成器に入力されるので、文章は、入力文の候補ということもできる。

疑問文生成器とは、入力文に基づいて疑問文を生成するプログラム（アプリケーション）である。別の言い方をすれば、疑問文生成器は、疑問文の変換に特化した換言処理のプログラム、又は、疑問文の生成方法が定義されたアルゴリズムということもできる。疑問文生成器自体は、公知の生成器を利用可能であり、例えば、統計的機械翻訳又はニューラル機械翻訳を流用した手法（論文「L. Nio and K. Murakami. “Intelligence is Asking the Right Question: A Study on Japanese Question Generation.” IEEE Spoken Language Technology conference, 2018.」又は米国特許出願「16/228,594」に係る手法）を利用してもよいし、入力文を疑問文に変換する変換ルールを予め定めておくルールベース又はセミルールベースと呼ばれる手法を利用してもよい。

入力文とは、疑問文生成器に入力される文章である。別の言い方をすれば、入力文は、疑問文に変換される文章である。文章抽出システム１は、複数の文章の中から、入力文となる少なくとも１つの文章を抽出するので、入力文は、抽出後（フィルタリング後）の文章ということもできる。入力文は、疑問文以外の形式であればよく、例えば、平叙文、感嘆文、又は命令文である。入力文は、肯定文であってもよいし、否定文であってもよい。

疑問文とは、相手に答えを問う形の文章である。別の言い方をすれば、疑問文は、入力文が変換された後の文章である。疑問文は、質問文と呼ばれることもある。疑問文は、任意の形式であってよく、例えば、ＹＮ疑問文（Ｙｅｓ又はＮｏの答えを求める疑問文）、ＷＨ疑問文（Ｗｈａｔ、Ｗｈｉｃｈ、Ｗｈｙ、ＷｈｅｒｅなどのＷｈ語又はＨｏｗなどの語が冒頭に記載される疑問文）、選択疑問文、付加疑問文、又は、間接疑問文である。疑問文の末尾には、「？」などの疑問符が記載されてもよいし、疑問符は省略されてもよい。なお、疑問文の種類は、これらに限られず、疑問文生成器が対応する言語に応じた任意の種類であってよい。

本実施形態では、動画や記事などのコンテンツに対し、ユーザが入力したコメントが文章に相当する場合を説明する。コメントには、コンテンツの感想が含まれるので、疑問文生成器が生成する疑問文は、コンテンツに関する感想の入力をユーザに促すための文章となる。疑問文は、コメントを入力していないユーザに対して提示されてもよいし、コメントを入力済みのユーザに対して更なるコメントを求めるために提示されてもよい。

例えば、ユーザは、ＳＮＳやウェブサイトなどを通じてコメントを入力する。ユーザが入力したコメントの中には、有用な情報を含むコメントもあるが、一言だけの短いコメントも多く、このようなコメントから得られる情報は非常に少ない。このため、本実施形態では、ユーザからのコメントの入力を受動的に待つのではなく、ユーザに対し、能動的に問いかけるために、疑問文を生成して積極的にコメントを収集するようにしている。

この点、従来技術で説明したようなテンプレートを利用して疑問文を生成する手法では、疑問文のバリエーションがテンプレートの数に依存するので、疑問文の表現力に乏しく、ユーザから種々の意見を集めることが難しい。このため、テンプレートを利用した手法に限定せず、他の種々の疑問文生成器を利用することが望ましい。

しかしながら、コメントの中には、挨拶やお礼のようにユーザの感想を含まない文などのように、疑問文の生成に適さないコメントも多い。このため、疑問文の生成に適さないコメントが疑問文生成器に入力されると、何を問いたいのか分からない疑問文が生成され、疑問文の精度が低下してしまう。そこで、文章抽出システム１は、コメントの中から、疑問文の生成に適したコメントを抽出し、疑問文の精度を高めるようにしている。

図２は、文章抽出システム１が実行する処理の概要を示す図である。例えば、サーバ１０は、多数のコメントが格納された文章データベースＤＢ１を記憶する。コメントｓ１のように、挨拶やお礼だけが記述されたコメントは、ユーザの感想を含まないので、疑問文の生成には適さない。また例えば、コメントｓ３のように、ユーザの感想を含んでいたとしても、複数の内容を含む長いコメントは、疑問文への変換が困難なので、疑問文の生成には適さない。また例えば、コメントｓ５のように、疑問文への変換が容易なコメントだったとしても、ユーザの感想を引き出せていないコメントは、疑問文の生成には適さない。

一方、コメントｓ２，ｓ４は、ユーザの感想が引き出されており、かつ、感想が端的に記述されているので、疑問文の生成に適している。例えば、図２に示すように、コメントｓ１，ｓ３，ｓ５が除外され、コメントｓ２，ｓ４が疑問文生成器に入力される。これにより、疑問文ｑ１〜ｑ３のように、ユーザの感想を引き出しやすい精度の高い疑問文を生成することができる。このように、文章抽出システム１は、疑問文の生成に適さないコメントを除外し、疑問文の生成に適したコメントを抽出し、疑問文生成器に入力する。

［３．入力文を抽出する手法の一例について］
本実施形態では、入力文を抽出する手法の一例として、整数線形計画問題による文抽出（以降、ＩＬＰ文抽出）を説明する。例えば、ＩＬＰ文抽出では、入力として文集合Ｄ＝｛ｓ_１，・・・，ｓ_Ｎ｝（Ｎは２以上の整数）が与えられる。文集合Ｄは、文章抽出システム１が最初に取得するコメントの集合であり、入力文の抽出元となる母集団である。ＩＬＰ文抽出は、文集合Ｄから、適切な部分集合Ｓ⊆Ｄを構成する問題として捉えられる。

ここで，入力文集合を、Ｎ次元の０／１ベクトルであるｙ＝｛ｙ_１，・・・，ｙ_Ｎ｝で表すと、文集合Ｄの中にある文ｓ_ｉ（ｉは１〜Ｎの任意の整数）がｓ_ｉ∈Ｓであれば、ｙ_ｉ＝１となり、そうでなければ、ｙ_ｉ＝０となるベクトルとして、文抽出の結果を表すことができる。

本実施形態では、ＩＬＰ文抽出の基本モデルを、次の数式１及び数式２のように定義する。なお、数式３は、数式２のｙ_ｉの値が０又は１になることを示す。

数式１の関数ｆ（ｙ）は、出力候補ｙの良さを測る評価関数である。本実施形態では、数式２の制約式を満たしつつ、関数ｆ（ｙ）の値が最大となる候補を出力することを目指す。ここで、数式２の制約式内のＬ_ｍａｘは、出力の最大長であり、ｌ_ｉは、文ｓ_ｉの長さを表している。即ち、数式２は、出力される文全体の分量が多くなりすぎないように制約をかけるための数式である。ＩＬＰ文抽出では、関数ｆ（ｙ）の定義及び制約式の追加によって、目的に合った文抽出器を設計することができる。

本実施形態では、文抽出器に対し、ａ）意見を含む文を優先的に抽出すること、ｂ）構文的・意味的に簡潔な文を優先的に抽出すること、及び、ｃ）出力される文集合全体として種々の意見を含むように文を抽出すること、の３つの要件を求めるものとする。意見とは、ユーザの感想であり、後述するように、本実施形態では、評価視点ａ_ｊと評価表現ｅ_ｋのペアとして定義される。

例えば、要件ａ）によって、図２のコメントｓ１やコメントｓ５を排除することができる。また例えば、要件ｂ）によって、コメントｓ３を排除することができる。また例えば、要件ｃ）によって、意見のバリエーションを増やし、出力されるコメントの表現力を確保することができる。

本実施形態では、要件ａ）〜ｃ）を全て満たす文抽出モデルとして、評価関数を数式４のように定義する。

更に、数式４の評価関数を利用して、数式１及び数式２で定義した基本モデルを、数式５〜数式８のように拡張する。なお、数式５〜数式８に示すｙ_ｉの値は、数式３で示したように０又は１になる。また、数式９は、数式４及び数式８のｚ_ｊｋの値が０又は１になることを示す。

まず、数式４の評価関数について説明する。本実施形態では、コメントに含まれる意見を、評価視点ａ_ｊと評価表現ｅ_ｋのペアとして定義する。評価視点ａ_ｊとは、評価する対象となる評価対象（本実施形態では、コメントの投稿対象となるコンテンツ）のうち、具体的に評価される部分や属性のことであり、例えば、「歌声」や「バランス」といった語句である。評価視点ａ_ｊは、評価の観点ということもできる。評価表現ｅ_ｋとは、評価対象を評価する言語的表現であり、例えば、「さわやか」や「よい」といった語句である。評価表現ｅ_ｋは、評価の具体的な内容であり、ここではユーザの主観的な意見である。評価視点ａ_ｊと評価表現ｅ_ｋは、単語であってもよいし、複数の単語を含むフレーズであってもよい。評価視点ａ_ｊと評価表現ｅ_ｋは、予め用意しておけばよく、例えば、否定的な文言が用いられないようにしてもよい。

数式４では、評価視点ａ_ｊの集合をＱ_ａとし、評価表現ｅ_ｋの集合をＱ_ｅとする。数式４の変数ｚ_ｊｋは、意見＜ａ_ｊ，ｅ_ｋ＞（評価視点ａ_ｊと評価表現ｅ_ｋのペア）が出力に含まれるなら１となり、含まれないなら０となる。数式４の右辺に示すように、変数ｚ_ｊｋに後述する重みを乗じた値を全ての意見で足し込むことにより、さまざまな意見を含むほど、評価関数の値が大きくなる。このため、数式４は、抽出される疑問文に含まれる意見のバリエーションを豊富にさせるための数式ということができる。

ここで、数式４のｂ_ｊｋ／ｄ_ｊｋは、意見＜ａ_ｊ，ｅ_ｋ＞に対する重みを表す。分子ｂ_ｊｋは、コメントにおける意見＜ａ_ｊ，ｅ_ｋ＞の生起確率である。生起確率は、標準的な言い回しであることを示す尺度である。ある表現の生起確率が高いほど、その表現が一般的に用いられており、万人にとって分かりやすい表現であることを示す。生起確率は、予め定められていてもよいし、コメント全体を統計的に分析することによって取得されてもよい。

分母ｄ_ｊｋは、意見の構成要素である評価視点ａ_ｊと評価表現ｅ_ｋの文中における平均係り受け距離である。係り受け距離は、評価視点ａ_ｊと評価表現ｅ_ｋがどれだけ離れているかを示す数値であり、例えば、評価視点ａ_ｊと評価表現ｅ_ｋの間にある文字数である。

数式４では、ｂ_ｊｋ／ｄ_ｊｋの重みを利用することによって、よく使われる標準的な言い回しで、かつ、評価視点ａ_ｊと評価表現ｅ_ｋが近接して現れる（即ち、構文的に簡潔な）意見が優先的に抽出されることになる。

次に，基本モデルから追加された制約式である数式５〜数式８について説明する。例えば、数式５の制約式内の関数ｃ_ａ（ｙ_ｉ，ａ_ｊ）は、次の式により定義される。

数式１０のｈ_ｉｊは、文ｓ_ｉに評価視点ａ_ｊが含まれていれば１となり、そうでなければ０をとる。つまり、ｃ_ａ（ｙ，ａ_ｊ）は、評価視点ａ_ｊを含む文が出力される数を示す。ここで，ベクトルｙ_ｉは、出力候補ｙのｙ_ｉ要素以外の値を０にしたベクトルである。結果として、ｃ_ａ（ｙ_ｉ，ａ_ｊ）は、文ｓ_ｉに評価視点ａ_ｊが含まれていれば１となり、そうでなければ０をとり、数式５の左辺は、ｓ_ｉに含まれる評価視点ａ_ｊの異なり数を表す。同様に、数式５の右辺は、ｓ_ｉに含まれる評価表現ｅ_ｋの異なり数を表す。以上をまとめると，数式５の制約式は、文ｓ_ｉが出力に含まれるには、文ｓ_ｉに含まれる評価視点ａ_ｊの異なり数と、評価表現ｅ_ｋの異なり数と、が同数である（評価視点ａ_ｊと評価表現ｅ_ｋがペアとして出現し意見を構成する）ことを課している。

数式６の制約式及び数式７の制約式は、その数がたかだか１つであることを課している。これら２つの制約は、意見を含む文を抽出する際に、その意見は、簡潔に表現されていることを要請する。

数式８が示す制約式は、文ｓ_ｉの出力に関する変数ｙ_ｉと出力に含まれる意見に関する変数ｚ_ｊｋ間の整合性を保つための関係式である。この式のｏ_ｉｊｋは、文ｓ_ｉに意見＜ａ_ｊ，ｅ_ｋ＞が含まれていれば１、そうでなければ０をとる。つまり、出力中に意見＜ａ_ｊ，ｅ_ｋ＞が含まれるためには、＜ａ_ｊ，ｅ_ｋ＞を含む文が１つ以上出力されなければならない事を課している。

本実施形態の文章抽出システム１は、上記説明したＩＬＰ文抽出により、サーバ１０に登録されたコメントの中から、疑問文の生成に適したコメントを抽出する。文章抽出システム１は、上記説明した制約式の全てを利用してもよいし、一部だけを利用してもよい。例えば、出力文内に含まれる意見を制御する数式５が示す制約式と、数式６及び数式７が示す制約式（数式６及び数式７は、１対で使用する制約式）と、の両方を利用してもよいし、何れか一方のみを利用してもよい。

図３は、発明者達が行った実験結果を示す図である。なお、当該実験結果は、本実施形態で説明するコンテンツのコメントに対して行われた実験ではなく、特定の商品のレビューに対して行われた実験を示している。この実験は、７００件程度のレビューに対して行われ、最大出力長Ｌ_ｍａｘが要約率５％程度になるように設定されているが、母集団の文章の量や要約率は、これらに限られない。

なお、図３の「モデルＡ」は、数式５が示す制約式と、数式６及び数式７が示す制約式と、の両方を使用するモデルである。「モデルＢ」は、数式５が示す制約式を使用し、数式６及び数式７が示す制約式は使用しないモデルである。「モデルＣ」は、数式５が示す制約式は使用せず、数式６及び数式７が示す制約式を使用するモデルである。「モデルＤ」は、数式５が示す制約式と、数式６及び数式７が示す制約式と、を何れも使用しないモデルである。また、図３に示す「抽出文数」は、母集団の中から各モデルが抽出した文の数である。「抽出適合数」は、抽出すべき文（疑問文の生成に適していると思われる文）を各モデルが抽出できた割合である。「異なり意見数」は、意見のバリエーションである。「文字数／文」は、１文当たりの平均文字数である。

図３に示すように、発明者達の実験結果によると、上記説明したＩＬＰ文抽出により、要件ａ）を満たす、ユーザの意見を含むコメントを抽出できることが確認されている。また、数式５が示す制約式と、数式６及び数式７が示す制約式と、の両方を利用するモデルＡと、何れも利用しないモデルＤと、では大きく出力結果の特徴が異なる。数式５が示す制約式だけを利用するモデルＢは、その中間であり、数式６及び数式７が示す制約式だけを利用するモデルＣは、今回の実験結果の設定では、これらを両方とも使用するモデルＡと同じ結果であった。そこで、これらの両方とも利用するモデルＡと、何れも利用しないモデルＤと、の結果の詳細を比較する。

まず、抽出適合率を見ると、モデルＡが高い値を示しており、モデルＤよりも、疑問文生成に適したコメントをうまく抽出できている。異なり意見数は、モデルＤの方が多いが、これは１文当たりの文字数からも分かるように、モデルＤは、長いコメントを選択し、評価関数値を上げるために１文に複数の意見が含まれた文を優先的に出力した結果であるといえる。これは要件ｃ）には合致するが、要件ｂ）の観点から見ると適した結果とはいえない。

一方、モデルＡは、逆の傾向を示しており、数式５〜数式７の各々の制約式の作用により、意見を１つ含む短い文を優先的に出力している。モデルＡは、抽出文の文長が短いことから、抽出文数がモデルＤよりも多くなることが期待されるが実験結果ではそうならなかった。この理由は、モデルＡが有する制約を満たす文が、実験時に使用したデータセットにわずかしか含まれておらず、Ｌ_ｍａｘ限界近くまで文出力がなされなかったためである。入力に制約を満たす文が存在すれば、抽出文数が増え、それに伴って抽出される異なり意見数も延びると予想される。

以上のように、本実施形態の文章抽出システム１は、全てのコメントを疑問文生成器に入力するのではなく、疑問文を生成するのに適したコメントに絞り込むことにより、疑問文生成器に生成させる疑問文の精度を高めるようにしている。以降、文章抽出システム１が有する構成の詳細を説明する。

［４．本実施形態において実現される機能］
図４は、文章抽出システム１で実現される機能の一例を示す機能ブロック図である。図４に示すように、例えば、データ記憶部１００、文章取得部１０１、特定部１０２、抽出部１０３、入力部１０４、疑問文取得部１０５、及び疑問文出力部１０６が実現される。本実施形態では、これら各機能がサーバ１０において実現される。データ記憶部１００は、記憶部１２を主として実現され、他の各機能は、制御部１１を主として実現される。

［４−１．データ記憶部］
データ記憶部１００は、文章を抽出するために必要なデータを記憶する。例えば、データ記憶部１００は、疑問文生成器、文章データベースＤＢ１、辞書データベースＤＢ２、及び疑問文データベースＤＢ３を記憶する。なお、図４では、疑問文生成器の符号は省略する。

先述したように、疑問文生成器自体は、公知の種々の手法を利用可能であり、データ記憶部１００は、疑問文生成器のプログラムやパラメータなどのデータを記憶する。例えば、機械翻訳を流用する手法であれば、データ記憶部１００は、入力文と疑問文の関係を示す教師データによってパラメータが調整されたモデルを疑問文生成器として記憶する。例えば、教師データは、入力文を疑問文に変換した文章を人間の手で作成し、入力文と疑問文のペアが教師データに格納される。

また例えば、ルールベース又はセミルールベースを利用するのであれば、データ記憶部１００は、入力文を疑問文に変換する変換ルールを含む疑問文生成器を記憶する。変換ルールは、入力文と疑問文の関係であり、例えば、語順の入れ替えルールや疑問詞の挿入位置などが示されている。変換ルールは、言語に応じて人間が手動で指定すればよい。他にも例えば、テンプレートを利用するのであれば、データ記憶部１００は、テンプレートを含む疑問文生成器を記憶する。テンプレートは、入力文の一部の語句を挿入可能となっており、入力文の特徴的な表現をテンプレートに挿入することによって、疑問文が生成される。

図５は、文章データベースＤＢ１のデータ格納例を示す図である。図５に示すように、文章データベースＤＢ１は、複数の文章が格納されたデータベースである。例えば、文章データベースＤＢ１には、評価対象を一意に識別する対象ＩＤ、評価対象の属性、評価対象の名前、及びユーザが入力したコメントが格納される。

本実施形態では、コンテンツに対してコメントが入力されるので、評価対象は、コンテンツであり、対象ＩＤは、コンテンツを一意に識別する情報である。評価対象は、コメントの入力対象ということもできる。属性は、評価対象の分類であり、例えば、カテゴリ又はジャンルとも呼ばれる。本実施形態のように、コンテンツであれば、属性は、「コメディ」「ホラー」「教育」といったコンテンツの分類である。属性は、コンテンツが登録される際に指定されるものとする。本実施形態では、評価対象は、複数の属性の少なくとも１つに属するものとして説明するが、特に属性によって分類されていなくてもよい。評価対象の名前は、ユーザに評価対象を識別させるために付与された文字列であり、本実施形態では、コンテンツ名である。

文章データベースＤＢ１には、ユーザが入力した任意の長さの文章がコメントとして格納される。本実施形態では、ユーザが自由に文章を入力できるものとするが、ある程度のフォーマットが定められていてもよい。文章１つ当たりの長さは、任意であってよく、例えば、上限文字数及び下限文字数の少なくとも一方が設定されていてもよい。

図６は、辞書データベースＤＢ２のデータ格納例を示す図である。図６に示すように、辞書データベースＤＢ２は、特徴的な表現が格納されたデータベースである。例えば、辞書データベースＤＢ２には、評価視点ａ_ｊのリストと、評価表現ｅ_ｋのリストと、が格納される。なお、これらのリストは、別々のデータベースに格納されていてもよい。また、辞書データベースＤＢ２の内容は、文章抽出システム１の管理者によって編集可能であってもよい。

特徴的な表現は、入力文を抽出する際に参照される表現であり、例えば、疑問文の生成に適するか否かの判断基準となる表現である。特徴的な表現は、予め定められた表現であればよく、本実施形態では、ユーザの感想や評価対象の特徴（性質）を示す表現である。特徴的な表現は、１つの単語だけで構成されてもよいし、複数の単語を含むフレーズであってもよい。

本実施形態では、評価表現ｅ_ｋが特徴的な表現に相当する場合を説明する。このため、本実施形態で評価表現ｅ_ｋと記載した箇所は、特徴的な表現と読み替えることができる。なお、評価表現ｅ_ｋではなく、評価視点ａ_ｊが特徴的な表現に相当してもよいし、特に評価表現ｅ_ｋと評価視点ａ_ｊを使い分けるのではなく、管理者が指定した語句が特徴的な表現に相当してもよい。

また、評価対象の属性によって、特徴的な表現が変わることが考えられるので、辞書データベースＤＢ２は、属性ごとに定義されていてもよい。例えば、「コメディ」の属性のコンテンツであれば、「楽しい」や「面白い」といった表現が特徴的な表現として定義されており、「ホラー」の属性のコンテンツであれば、「怖い」や「びっくり」といった表現が特徴的な表現として定義されていてもよい。

図７は、疑問文データベースＤＢ３のデータ格納例を示す図である。図７に示すように、疑問文データベースＤＢ３は、疑問文生成器により生成された疑問文が格納されたデータベースである。コンテンツの属性によってユーザの感想を引き出しやすい疑問文が異なることがあるので、本実施形態では、疑問文データベースＤＢ３には、評価対象の属性ごとに、疑問文が格納される場合を説明するが、特に属性に関係なく疑問文が格納されてもよい。疑問文データベースＤＢ３に格納された疑問文は、任意のタイミングでユーザ端末２０に表示され、ユーザに対し、コメントの入力が促される。

なお、データ記憶部１００に記憶されるデータは、上記の例に限られない。例えば、データ記憶部１００は、意見（評価視点ａ_ｊと評価表現ｅ_ｋのペア）の生起確率が格納された生起確率データベースを記憶してもよい。生起確率データベースには、文章における意見の出現度が集計されることにより生起確率が計算されて格納される。文章データベースＤＢ１に格納された文章を利用して生起確率が集計されてもよいし、他の文章を利用して生起確率が集計されてもよい。生起確率データベースには、評価視点ａ_ｊと評価表現ｅ_ｋのペアではなく、評価視点ａ_ｊだけの生起確率が格納されてもよいし、評価表現ｅ_ｋだけの生起確率が格納されてもよい。

［４−２．文章取得部］
文章取得部１０１は、複数の文章を取得する。文章取得部１０１が取得する文章は、母集団となる文集合Ｄである。本実施形態では、文書データベースに文章が格納されているので、文章取得部１０１は、文章データベースＤＢ１を参照し、複数の文章を取得する。

本実施形態では、１つの文章の中に含まれる文の数は、１つとは限られず、ユーザが自由に決めることができるので、文章取得部１０１により取得される複数の文章の各々は、少なくとも１つの文を含むことになる。ある文章に含まれる文の数は、他の文章に含まれる文の数と同じであってもよいし、互いに異なっていてもよい。

文章取得部１０１は、文章データベースＤＢ１に格納された全ての文章を取得してもよいし、一部の文章だけを取得してもよい。文章取得部１０１が取得する文章の分量は、特に定められていなくてもよいし、所定の範囲に収まるようにしてもよい。

文章の分量は、任意の指標で示されてよく、例えば、文章の総数、文（文章に含まれる個々の文）の総数、総文字数、又は総単語数で示される。所定の範囲は、上限値であってもよいし、下限値であってもよいし、これらの両方であってもよい。例えば、文章取得部１０１は、文章の総数が所定の範囲になるように文章を取得したり、文の総数が所定の範囲になるように文章を取得したりする。また例えば、文章取得部１０１は、総文字数が所定の範囲になるように文章を取得したり、総単語数が所定の範囲になるように文章を取得したりする。

本実施形態では、コンテンツの属性に応じた内容の疑問文を生成するために、文章取得部１０１は、属性ごとに、複数の文章を取得する。文章取得部１０１は、文章データベースＤＢ１に格納された文章のうち、疑問文の生成対象となる属性に関連付けられた文章を取得する。疑問文の生成対象となる属性は、複数の属性のうちの少なくとも１つであればよく、例えば、文章抽出システム１の管理者によって指定されてもよいし、所定のアルゴリズムにより選択されてもよい。

［４−３．特定部］
特定部１０２は、複数の文章に含まれる、少なくとも１つの特徴的な表現を特定する。本実施形態では、辞書データベースＤＢ２に特徴的な表現が定義されているので、特定部１０２は、文章取得部１０１が取得した複数の文章の中に、辞書データベースＤＢ２に格納された特徴的な表現が含まれているか否かを判定する。別の言い方をすれば、特定部１０２は、文章取得部１０１が取得した複数の文章の中から、辞書データベースＤＢ２に格納された特徴的な表現を検索する。

本実施形態では、文章取得部１０１が取得した全ての文章（複数の文章の全体）が特徴的な表現の探索対象となる場合を説明するが、その一部だけが検索対象となってもよい。例えば、特定部１０２は、辞書データベースＤＢ２に格納された特徴的な表現をクエリとし、文章取得部１０１が取得した複数の文章を検索する。検索は、文字列の完全一致を判定してもよいし、あいまい検索が利用されてもよい。

文章取得部１０１が取得する複数の文章には、複数の特徴的な表現が含まれている場合、特定部１０２は、複数の文章に含まれる、複数の特徴的な表現を特定することになる。また、特定部１０２は、商品の属性に関係なく特徴的な表現を取得してもよいが、本実施形態では、属性ごとに文章が取得されるので、特定部１０２は、属性ごとに、少なくとも１つの特徴的な表現を特定する。

本実施形態では、特定部１０２は、辞書データベースＤＢ２に基づいて、文章取得部１０１が取得した文章に含まれる、評価視点ａ_ｊと評価表現ｅ_ｋのペアである意見＜ａ_ｊ，ｅ_ｋ＞を特定する。例えば、評価視点ａ_ｊと評価表現ｅ_ｋが同じ文中に存在する場合、特定部１０２は、意見＜ａ_ｊ，ｅ_ｋ＞が存在すると判定する。なお、特に評価視点ａ_ｊを用いない場合には、特定部１０２は、評価表現ｅ_ｋだけを特定してもよい。また、特に評価表現ｅ_ｋを用いない場合には、特定部１０２は、評価視点ａ_ｊだけを特定してもよい。また、評価視点ａ_ｊと評価表現ｅ_ｋを特に区別しない場合には、特定部１０２は、文章取得部１０１が取得した文章の中から、辞書データベースＤＢ２に格納された語句を特徴的な表現として特定すればよい。

［４−４．抽出部］
抽出部１０３は、特定部１０２により特定された少なくとも１つの特徴的な表現に基づいて、複数の文章の中から、入力文から疑問文を生成する疑問文生成器に入力される少なくとも１つの文章を抽出する。ここでの抽出とは、入力文の絞り込み、選択、又は、フィルタリングということもできる。別の言い方をすれば、抽出部１０３は、複数の文章の要約を作成するということもできる。

文章取得部１０１により取得される文章の単位と、抽出部１０３により抽出される文章の単位と、は同じであってもよいし、異なっていてもよい。例えば、１つの文だけから構成される複数の文章の中から、少なくとも１つの文章が抽出される場合には、抽出前後における文章の単位は同じとなる。一方、複数の文から構成される複数の文の中から、個々の文が抽出される場合には、抽出前後における文章の単位は異なる。即ち、抽出部１０３により抽出される文章の単位は、文章取得部１０１により取得される文章の単位よりも小さくなる。

本実施形態では、抽出部１０３により抽出される少なくとも１つの文章の各々は、文章取得部１０１が取得した複数の文章に含まれる何れかの文となる。即ち、本実施形態では、抽出される文章は、個々の１つ１つの文である。このため、複数の文を含む文章であれば、その全ての文か抽出されることもあれば、一部の文だけが抽出され、残りの文が抽出されないことも起こりうる。

抽出部１０３は、特定部１０２により特定された特徴的な表現を含む文章を、少なくとも１つ抽出すればよい。例えば、抽出部１０３は、ある特徴的な表現を含む文章を全て抽出してもよいし、その一部だけを抽出してもよい。一部だけを抽出する場合には、抽出部１０３は、長さが短い文章を優先的に抽出してもよいし、ランダムに抽出してもよい。他にも例えば、抽出部１０３は、信頼性のあるユーザが入力した文章を優先的に抽出してもよい。

本実施形態では、抽出部１０３は、抽出される文章の分量が所定の範囲に収まるように、少なくとも１つの文章を抽出する。所定の範囲とは、分量の上限値であってもよいし、分量の下限値であってもよいし、これらの両方であってもよい。例えば、数式２に示されるように、抽出部１０３は、抽出後の文章の長さの合計値が閾値であるＬ_ｍａｘ以下になるように、少なくとも１つの文章を抽出する。閾値は、予め定めておけばよく、文章抽出システム１の管理者によって変更可能であってもよいし、属性ごとに定めておいてもよい。

特定部１０２により複数の特徴的な表現が特定された場合には、抽出部１０３は、抽出される文章全体に含まれる特徴的な表現が多くなるように、少なくとも１つの文章を抽出する。即ち、抽出部１０３は、ある特定の１つの文章の中で特徴的な表現が多くなるのではなく、抽出される全ての文章の中で特徴的な表現が多くなるように文章を抽出する。本実施形態では、数式１〜数式１０を利用したＩＬＰ文抽出を実行することで、より多くの表現を含むバリエーションに富んだ文章を抽出する場合を説明するが、他の方法によって、特徴的な表現が多く含まれるように、文章が抽出されてもよい。

例えば、抽出部１０３は、抽出される文章全体として、所定数以上の特徴的な表現が含まれるように、文章を抽出してもよい。この場合、抽出部１０３は、特定部１０２により特定された複数の特徴的な表現のうち、所定数以上の表現を文章の抽出で用いてもよいし、所定割合以上の表現を文章の抽出で用いてもよい。別の言い方をすれば、抽出部１０３は、所定数又は所定割合以上の特徴的な表現の各々について、当該表現を含む少なくとも１つの文章を抽出すればよい。

なお、特定部１０２により複数の特徴的な表現が特定された場合には、抽出部１０３は、その全てを文章の抽出で利用してもよいし、その一部だけを文章の抽出で利用してもよい。特徴的な表現の一部だけが文章の抽出で利用される場合には、抽出部１０３は、所定の条件に基づいて、複数の特徴的な表現の中から、文章の抽出に使用される少なくとも１つの特徴的な表現を決定し、少なくとも１つの特徴的な表現に基づいて、少なくとも１つの文章を抽出する。

所定の条件とは、文章の抽出で利用する特徴的な表現を決定するための条件であり、例えば、数式４の評価関数を最大化することである。なお、所定の条件は、予め定められた条件であればよく、例えば、数式４の評価関数の値を最大化するのではなく、閾値以上にすることであってもよいし、他の評価関数の値を最大化又は閾値以上にすることであってもよい。他にも例えば、所定の条件は、生起確率が所定値以上になることであってもよいし、特徴的な表現に優先順位を付けておき、優先順位が高い表現が利用されるようにしてもよい。

例えば、抽出部１０３は、少なくとも１つの特徴的な表現の生起確率を取得し、生起確率に基づいて、少なくとも１つの文章を抽出する。本実施形態では、生起確率は、データ記憶部１００に予め記憶されているので、抽出部１０３は、データ記憶部１００を参照し、生起確率を取得する。なお、抽出部１０３は、文章取得部１０１が取得した複数の文章の中で生起確率を計算してもよい。この場合、文章取得部１０１が取得した複数の文章の中で登場する頻度が高いほど生起確率が高くなる。

抽出部１０３は、生起確率が高い文章が優先的に抽出されるように、少なくとも１つの文章を抽出する。本実施形態では、数式４の評価関数の重みとして生起確率が定義されており、生起確率が高いほど重みが大きくなる。抽出部１０３は、数式４の評価関数に基づいて、文章の抽出で利用する特徴的な表現を決定し、当該表現を含む文章を抽出する。

なお、生起確率を利用して文章を抽出する方法は、本実施形態の例に限られない。例えば、抽出部１０３は、生起確率が高い順に所定個数の表現を選択し、当該選択された表現を含む文章を抽出してもよい。また例えば、抽出部１０３は、生起確率が閾値以上の表現の全部又は一部を選択し、当該選択された表現を含む文章を抽出してもよい。

また例えば、抽出部１０３は、少なくとも１つの特徴的な表現の係り受け距離を取得し、係り受け距離に基づいて、少なくとも１つの文章を抽出する。本実施形態では、複数の文章全体の中での平均係り受け距離が利用されるので、抽出部１０３は、文章取得部１０１が取得した複数の文章のうち、特徴的な表現を含む複数の文章を選択し、当該複数の文章の各々における係り受け距離を計算し、その平均値を計算する。係り受け距離は、評価視点ａ_ｊと評価表現ｅ_ｋとを含む文におけるこれらの近さであり、文字数や単語数で示される。なお、特徴的な表現を含む文章が１つしかなかった場合には、その文章における係り受け距離がそのまま平均係り受け距離となる。

抽出部１０３は、係り受け距離が短い文章が優先的に抽出されるように、少なくとも１つの文章を抽出する。本実施形態では、数式４の評価関数の重みとして係り受け距離が定義されており、係り受け距離が短いほど重みが大きくなる。抽出部１０３は、数式４の評価関数に基づいて、文章の抽出で利用する特徴的な表現を決定し、当該表現を含む文章を抽出する。

なお、係り受け距離を利用して文章を抽出する方法は、本実施形態の例に限られない。例えば、抽出部１０３は、平均係り受け距離が短い順に所定個数の表現を選択し、当該選択された表現を含む文章を抽出してもよい。また例えば、抽出部１０３は、平均係り受け距離が閾値以下の表現の全部又は一部を選択し、当該選択された表現を含む文章を抽出してもよい。

また例えば、抽出部１０３は、複数の文章の中から、少なくとも１つの特徴的な表現を含み、かつ、当該表現の数と係り受け語の数とが一致する少なくとも１つの文章を抽出する。係り受け語とは、特徴的な表現に係る語であり、本実施形態では、評価視点ａ_ｊである。係り受け語となりうる語句は、辞書データベースＤＢ２に定義しておけばよい。抽出部１０３は、１つの文章中に評価視点ａ_ｊと評価表現ｅ_ｋが登場した場合に、ある評価視点ａ_ｊが他の評価表現ｅ_ｋに係ると判定する。本実施形態では、抽出部１０３は、数式５が示す制約式に基づいて、特徴的な表現を含んでいたとしても、係り受け語がなかったり、係り受け語との数が一致していなかったりした場合には、その文章は抽出しない。例えば、２つの評価視点と１つの評価表現を含む文章については、これらの数が一致しないので抽出されない。

また例えば、抽出部１０３は、複数の文章の中から、少なくとも１つの特徴的な表現を含み、かつ、当該表現の係り受けの語の数が所定の範囲に収まる少なくとも１つの文章を抽出する。所定の範囲は、予め定められた範囲であればよく、上限数及び下限数の少なくとも一方が決められている。本実施形態では、数式６に示すように、抽出部１０３は、係り受け語が１つ以下の文章を抽出するが、所定の範囲は１以下に限られず、２以下又は３以下などといった任意の範囲であってよい。

また例えば、抽出部１０３は、複数の文章の中から、少なくとも１つの特徴的な表現を含み、かつ、当該表現の数が所定の範囲に収まる少なくとも１つの文章を抽出する。所定の範囲は、予め定められた範囲であればよく、上限数及び下限数の少なくとも一方が決められている。本実施形態では、数式７に示すように、抽出部１０３は、特徴的な表現が１つ以下の文章を抽出するが、所定の範囲は１以下に限られず、２以下又は３以下などといった任意の範囲であってよい。

また例えば、本実施形態では、抽出される文章の中に、同じ表現を含む文章の数が所定の範囲に収まるように、少なくとも１つの文章を抽出する。所定の範囲は、予め定められた範囲であればよく、上限数及び下限数の少なくとも一方が決められている。即ち、抽出部１０３は、ある表現について、当該表現を含む文章が重複して所定数以上抽出されないように、文章を抽出する。例えば、抽出部１０３は、入力文の抽出で利用する意見＜ａ_ｊ，ｅ_ｋ＞ごとに、当該意見＜ａ_ｊ，ｅ_ｋ＞を含む文章の数が所定の範囲となるように、文章を抽出する。このため、同じ意見＜ａ_ｊ，ｅ_ｋ＞を含む文章が多数抽出されないようになっている。なお、本実施形態では、同じ表現を含む文章が１つだけ抽出される場合を説明するが、２つ又は３つといった任意の数が抽出されてもよい。

本実施形態では、疑問文の生成対象となる属性が指定されるので、抽出部１０３は、属性ごとに、複数の文章の中から、少なくとも１つの文章を抽出することになる。抽出部１０３は、疑問文の生成対象となる属性に関連付けられた文章の中から、当該属性の疑問文を生成するための入力文を抽出することになる。

［４−５．入力部］
入力部１０４は、抽出部１０３により抽出された少なくとも１つの文章を疑問文生成器に入力する。例えば、機械翻訳を流用した疑問文生成器であれば、入力部１０４は、文章の特徴量（特徴ベクトル）を計算し、疑問文生成器に入力する。疑問文生成器は、文章の特徴量に基づいて、疑問文を出力する。なお、疑問文生成器が特徴量を計算するアルゴリズムを有している場合には、入力部１０４は、文章が示す文字列をそのまま疑問文に入力し、疑問文生成器は、自身で特徴量を計算し、疑問文を出力してもよい。

また例えば、ルールベース又はセミルールベースの疑問文生成器であれば、入力部１０４は、文章が示す文字列をそのまま疑問文生成器に入力し、疑問文生成器は、所定の変換ルールに基づいて、疑問文に変換する。また例えば、テンプレートを利用した疑問文生成器であれば、入力部１０４は、文章が示す文字列をそのまま疑問文生成器に入力し、疑問文生成器は、テンプレートを利用して疑問文を出力する。

［４−６．疑問文取得部］
疑問文取得部１０５は、疑問文生成器により生成された少なくとも１つの疑問文を取得する。疑問文取得部１０５は、疑問文生成器の出力内容を取得し、疑問文データベースＤＢ３に格納する。本実施形態では、疑問文の生成対象となる属性が指定されるので、疑問文取得部１０５は、当該属性に関連付けて疑問文を疑問文データベースＤＢ３に格納する。属性に関連付けられた疑問文は、当該属性の評価対象が提供されたユーザに対して出力される。

［４−７．疑問文出力部］
疑問文出力部１０６は、疑問文データベースＤＢ３に基づいて、疑問文を出力する。図８は、疑問文が出力される様子を示す図である。図８に示すように、例えば、疑問文出力部１０６は、疑問文データベースＤＢ３に格納された疑問文ｑ３をユーザ端末２０に表示させ、ユーザによるコメントの入力を促す。本実施形態では、疑問文出力部１０６は、文章を入力していないユーザに対し、疑問文を出力する場合を説明するが、疑問文は、文章を入力済みのユーザに対して出力されてもよい。疑問文出力部１０６は、ユーザ端末２０に表示されるコンテンツの属性に関連付けられた疑問文を出力する。複数の疑問文が生成されている場合には、疑問文出力部１０６は、ランダムに任意の疑問文を出力してもよいし、生起確率が高い表現を含む疑問文を出力してもよい。

［５．本実施形態において実行される処理］
図９は、サーバ１０によって実行される処理を示すフロー図である。図９に示す処理は、制御部１１が記憶部１２に記憶されたプログラムに基づいて動作することによって実行される。図９に示す処理は、図４に示す機能ブロックにより実行される処理の一例である。

図９に示すように、制御部１１は、疑問文の生成対象となる属性を決定する（Ｓ１）。Ｓ１においては、制御部１１は、予め用意された複数の属性のうち、少なくとも１つを生成対象の属性として決定する。先述したように、生成対象の属性は、管理者が指定してもよいし、アルゴリズムに基づいて決定されてもよい。

制御部１１は、記憶部１２に記憶された文章データベースＤＢ１を参照し、疑問文の生成対象となる属性に関連付けられた複数の文章を取得する（Ｓ２）。Ｓ２においては、制御部１１は、文章データベースＤＢ１に格納された文章のうち、疑問文の生成対象となる属性の評価対象に対して入力された文章を、入力文抽出の母集団として取得する。

制御部１１は、辞書データに基づいて、Ｓ２で取得した複数の文章に含まれる少なくとも１つの意見＜ａ_ｊ，ｅ_ｋ＞を特定する（Ｓ３）。Ｓ３においては、制御部１１は、辞書データに格納された評価視点ａ_ｊと評価表現ｅ_ｋをクエリとし、Ｓ２で取得した複数の文章を探索することによって、意見＜ａ_ｊ，ｅ_ｋ＞を特定する。

制御部１１は、生起確率データベースに基づいて、Ｓ３で特定した意見＜ａ_ｊ，ｅ_ｋ＞ごとに、生起確率を取得する（Ｓ４）。生起確率データベースには、意見＜ａ_ｊ，ｅ_ｋ＞ごとに生起確率が格納されており、Ｓ４では、制御部１１は、意見＜ａ_ｊ，ｅ_ｋ＞に関連付けられた生起確率を取得する。

制御部１１は、Ｓ２で特定した意見＜ａ_ｊ，ｅ_ｋ＞ごとに、平均係り受け距離を取得する（Ｓ５）。Ｓ５では、制御部１１は、意見＜ａ_ｊ，ｅ_ｋ＞ごとに、当該意見＜ａ_ｊ，ｅ_ｋ＞を含む文章を特定し、当該特定した文章における評価視点ａ_ｊと評価表現ｅ_ｋの距離を計算し、その平均値を取る。

制御部１１は、生起確率、平均係り受け距離、及び、数式１〜数式１０のＩＬＰ文抽出に基づいて、Ｓ１で取得された複数の文章の中から、疑問文生成器に入力される少なくとも１つの文章を抽出する（Ｓ６）。Ｓ６における処理の詳細は、［３．入力文を抽出する手法の一例について］で説明した通りである。

制御部１１は、疑問文生成器に、Ｓ６で抽出した少なくとも１つの文章を入力する（Ｓ７）。Ｓ６において複数の文章が抽出された場合には、Ｓ７においては、制御部１１は、疑問文生成器に、個々の文章を別々に入力する。

制御部１１は、疑問文生成器から出力された少なくとも１つの疑問文を取得し（Ｓ８）、本処理は終了する。Ｓ８においては、制御部１１は、疑問文生成器から出力された疑問文を、Ｓ１で決定された属性に関連付けて疑問文データベースＤＢ３に格納する。疑問文データベースＤＢ３に格納された疑問文は、任意のタイミングでユーザ端末２０に表示される。例えば、ユーザが視聴するコンテンツの属性に関連付けられた疑問文がユーザ端末２０に表示され、コンテンツに対するコメントの入力が促される。

以上説明した文章抽出システム１によれば、複数の文章に含まれる少なくとも１つの特徴的な表現に基づいて、複数の文章の中から疑問文生成器に入力される少なくとも１つの文章を抽出することで、特徴的な表現が含まれていない文章が疑問文生成器に入力され、例えば、何を問いたいのか分からない疑問文、違和感のある疑問文、又はユーザの感想を引き出すことができない疑問文といった不要な疑問文が生成されることを防止し、疑問文生成器に生成させる疑問文の精度を高めることができる。例えば、特徴的な表現が含まれていない文章が疑問文生成器に入力されると、不要な疑問文を生成するための不要な処理が実行され、疑問文生成器を実行するコンピュータの処理負荷が増大する可能性があるが、特徴的な表現が含まれていない文章は、疑問文生成器に入力されず、不要な処理が実行されないので、上記コンピュータの処理負荷を軽減することができる。また、不要な疑問文が生成されると、当該不要な疑問文のために、疑問文を蓄積するメモリの消費量が増大してしまうが、精度の高い疑問文だけを生成することで、メモリの消費量を抑制することができる。また、複数の文章の中から、疑問文を生成するのに適した文章をユーザに手動で抽出させると、非常に手間がかかってしまうが、複数の文章に含まれる特徴的な表現に基づいて文章を抽出することで、ユーザの手間を軽減することができる。また、疑問文生成器が生成した疑問文をユーザに提示して回答を求める場合には、提示する疑問文の精度が高まるので、疑問文に回答するユーザの手間を軽減することができる。即ち、ユーザから有用な情報を取得するために、ユーザが回答を入力する回数を減らすことができる。

また、文章抽出システム１内に、疑問文生成器のプログラムが記憶され、文章抽出システム１自ら疑問文を生成する処理を実行することで、文章抽出システム１に疑問文を取得させることができる。上記説明したように、疑問文生成器を実行するコンピュータの処理負荷を軽減したりメモリ消費を抑制したりすることができるので、文章抽出システム１において疑問文生成器が実現されることで、文章抽出システム１の処理負荷を軽減したりメモリ消費を抑制したりすることができる。

また、抽出される文章に含まれる特徴的な表現が多くなるように、少なくとも１つの文章を抽出することで、表現のバリエーションに富んだ文章を抽出することができ、疑問文の精度を効果的に高めることができる。例えば、特徴的な表現が多くなるように文章を抽出しない場合には、５つの文章が出力されてその中に５つの意見が含まれるといったときに、１つ目の文章に３つの意見が含まれ、２つ目の文章に２つの意見が含まれ、他の文章には一切意見が含まれないといったことが起こりうるが、文章抽出システム１によれば、５つの文章に万遍なく１つの意見を含ませることができ、入力文の表現のバリエーションを増やすことができる。

また、複数の文章の中には、種々のタイプの特徴的な表現が含まれており、疑問文を生成するのに適した表現もあれば、疑問文を生成するのに適していない表現もある。文章抽出システム１によれば、複数の文章に含まれる複数の特徴的な表現の中から、使用する少なくとも１つの特徴的な表現を決定したうえで、少なくとも１つの文章を抽出することで、疑問文を生成するのに適した表現を使用し、疑問文の精度を効果的に高めることができる。また、使用する特徴的な表現を絞り込むことにより、疑問文生成器に入力する入力文を、精度の高い疑問文を得られるものだけに絞り込み、精度の低い疑問文を取得するために余計な処理を実行する必要がなくなり、処理負荷を効果的に抑制することができる。また、疑問文生成器から、精度の高い疑問文だけを取得することで、精度の低い疑問文を記憶するために余計なメモリ領域を使用する必要がなくなり、メモリ消費量を効果的に抑制することができる。

また、抽出される文章の分量が所定の範囲に収まるように、少なくとも１つの文章を抽出することで、精度の高い疑問文を得られる文章に絞りこむことができ、疑問文の精度を効果的に高めることができる。また、疑問文生成器に入力される文章の分量が抑制され、疑問文生成器に、より少ない処理量で精度の高い疑問文を出力させることができ、処理負荷を効果的に抑制することができる。また、疑問文生成器に入力される文章の分量が抑制され、疑問文生成器から出力される疑問文の分量も抑制することができ、メモリ消費量を効果的に抑制することができる。

また、複数の文章に含まれる少なくとも１つの特徴的な表現の生起確率に基づいて、少なくとも１つの文章を抽出することで、より標準的な表現を含む文章を疑問文生成器に入力させることができ、より分かりやすい精度の高い疑問文を取得することができる。また、生起確率を利用して文章を絞りこむことにより、疑問文生成器に余計な処理を実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。

また、複数の文章に含まれる少なくとも１つの特徴的な表現の係り受け距離に基づいて、少なくとも１つの文章を抽出することで、特徴的な表現と係り受け語との距離が考慮された分かりやすい文章を疑問文生成器に入力させることができ、より分かりやすい精度の高い疑問文を取得することができる。また、係り受け距離を利用して文章を絞りこむことにより、疑問文生成器に余計な処理を実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。

また、複数の文章に含まれる少なくとも１つの特徴的な表現を含み、かつ、当該表現の数と係り受け語の数とが一致する少なくとも１つの文章を抽出することで、特徴的な表現と係り受け語の数の一致が考慮された分かりやすい文章を疑問文生成器に入力させることができ、より分かりやすい精度の高い疑問文を取得することができる。また、特徴的な表現と係り受け語の数の一致を利用して文章を絞りこむことにより、疑問文生成器に余計な処理を実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。

また、複数の文章に含まれる少なくとも１つの特徴的な表現を含み、かつ、当該表現の係り受け語の数が所定の範囲に収まる少なくとも１つの文章を抽出することで、係り受け語の数が考慮された分かりやすい文章を疑問文生成器に入力させることができ、より分かりやすい精度の高い疑問文を取得することができる。また、係り受け語の数を利用して文章を絞りこむことにより、疑問文生成器に余計な処理を実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。例えば、係り受け語が１つ以下の文章を抽出するようにした場合には、図２のコメントｓ３のような冗長な文章を排除し、よりシンプルで疑問文に変換しやすい文章を抽出することができるので、疑問文の精度を効果的に高めることができる。

また、複数の文章に含まれる少なくとも１つの特徴的な表現を含み、かつ、当該表現の数が所定の範囲に収まる少なくとも１つの文章を抽出することで、特徴的な表現の数が考慮された分かりやすい文章を疑問文生成器に入力させることができ、より分かりやすい精度の高い疑問文を取得することができる。また、特徴的な表現の数を利用して文章を絞りこむことにより、疑問文生成器に余計な処理を実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。例えば、特徴的な表現が１つ以下の文章を抽出するようにした場合には、図２のコメントｓ３のような冗長な文章を排除し、よりシンプルで疑問文に変換しやすい文章を抽出することができるので、疑問文の精度を効果的に高めることができる。

また、抽出される文章の中に、同じ表現を含む文章の数が所定の範囲に収まるように、少なくとも１つの文章を抽出することで、互いに似た多数の文章が疑問文生成器に入力され、互いに似た多数の疑問文が出力されるといったことを防止することができる。これにより、互いに似た多数の疑問文を生成するといった余計な処理を疑問文生成器に実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。

また、抽出される文章の各々が、複数の文章に含まれる何れかの文であり、１つ１つの文を抽出の単位とすることで、１つの文章の中に複数の文が含まれていたとしても、疑問文を生成しやすい文単位で疑問文生成器に入力することができ、疑問文の精度を効果的に高めることができる。

［６．変形例］
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。

例えば、実施形態では、文章の一例としてコンテンツに対するコメントを説明したが、文章は、評価対象のレビューであってもよい。この場合、評価対象は、商品、サービス、又はコンテンツである。レビューは、ユーザの主観的な感想であり、口コミと呼ばれることもある。レビューは、評価対象を利用又は購入したユーザにより入力されてもよいし、購入を検討しているユーザにより入力されてもよい。

なお、商品は、インターネット上の店舗又は現実の店舗で取り扱われる有体物に限られず、旅行商品や金融商品であってもよいし、アプリケーションや楽曲などのデータであってもよい。サービスは、任意のサービスであってよく、例えば、宿泊施設や飲食物などの提供サービス、保険サービス、又は金融サービスであってもよい。コンテンツは、任意のコンテンツであってよく、例えば、ウェブサイトの記事、ＳＮＳや掲示板への投稿、動画、楽曲、又はゲームなどのアプリケーションであってもよい。

本変形例では、文章データベースには、商品などに対するユーザのレビューが格納される。本変形例では、辞書データベースに格納される特徴的な表現は、評価対象の特徴を示し、例えば、品質、性能、味、香り、雰囲気、又は美観などを示す語句である。疑問文生成器が生成する疑問文は、レビューの入力をユーザに促すための文章となる。

また、実施形態と同様に、評価対象は、複数の属性の少なくとも１つに属しているものとするが、特に属性が存在しなくてもよい。本変形例では、文章取得部１０１は、属性ごとに、複数のレビューを取得する。特定部１０２は、属性ごとに、少なくとも１つの特徴的な表現を特定する。抽出部１０３は、属性ごとに、複数のレビューの中から、少なくとも１つの文章を抽出する。これらの処理は、実施形態で文章又はコメントと記載した部分をレビューと読み替えることにより実現されるようにすればよい。

本変形例によれば、評価対象のレビューに含まれる評価対象の特徴を特定し、複数のレビューの中から、疑問文生成器に入力されるレビューを抽出することで、レビューを促すための疑問文を生成する精度を高めることができる。これにより、レビューの入力数を増加させ、有用な情報を提供することができる。

また、評価対象の属性ごとに、複数の文章の中から少なくとも１つの文章を抽出することで、属性に応じた精度の高い疑問文を生成することができる。例えば、商品のカテゴリやジャンルに応じた疑問文を生成し、ユーザにレビューを入力させる動機付けをより強く与えることができる。

なお、実施形態では、疑問文を生成する場面に文章抽出システム１を適用する場合を説明したが、文章抽出システム１は、疑問文生成以外の場面で利用してもよい。即ち、上記説明した構成のうち、疑問文を生成する構成は省略してもよい。例えば、文章抽出システム１は、要約文を生成する場面に利用し、実施形態で説明したＩＬＰ文抽出を利用して、要約文を生成してもよい。この場合、文章抽出システム１は、要約書に含まれる特徴的な表現の数が多くなるように、少なくとも１つの文章を抽出して要約書を生成してもよい。

また例えば、文章抽出システム１は、複数の特徴的な表現を所定の条件のもとで絞り込んだうえで、要約書を構成する文章を抽出してもよい。また例えば、文章抽出システム１は、数式５以降の制約式を省略し、数式４が示す評価関数だけを利用して要約文を生成してもよい。この場合、文章抽出システム１は、生起確率に基づいて、要約文を構成する文章を抽出してもよいし、係り受け距離に基づいて、要約文を構成する文章を抽出してもよい。

また例えば、文章抽出システム１は、数式５が示す制約式だけを考慮して要約文を生成してもよい。この場合、文章抽出システム１は、文章中に含まれる評価視点ａ_ｊの数と評価表現ｅ_ｋの数とが一致する文章を、要約文を構成する文章として抽出してもよい。また例えば、数式６又は数式７が示す制約式だけを考慮して要約文を生成してもよい。この場合、文章抽出システム１は、評価視点ａ_ｊが１つ以下となる文章を、要約文を構成する文章として抽出してもよいし、評価表現ｅ_ｋが１つ以下となる文章を、要約文を構成する文章として抽出してもよい。

要約文を生成する場面以外にも、コメントやレビューの集計を行う場面に文章抽出システム１を利用してもよいし、翻訳器に入力する入力文を抽出する場面に文章抽出システム１を利用してもよい。また例えば、Ｑ＆Ａ又はＦＡＱを生成するために文章抽出システム１が利用されてもよい。また例えば、文章抽出システム１は、チャットボットによる会話の内容を生成するために文章を変換してもよいし、試験問題の作成をするために文章を変換してもよい。例えば、チャットボットに利用する場合には、文章抽出システム１は、チャットボットの発言内容を示す疑問文を生成する。また例えば、試験問題の作成に利用する場合には、文章抽出システム１は、試験問題の解答に基づいて問題文を生成する。

また例えば、疑問文を平叙文に変換する変換器に入力する文章を抽出する場面、平叙文を命令文に変換する変換器に入力する文章を抽出する場面、命令文を平叙文に変換する変換器に入力する文章を抽出する場面、平叙文を感嘆文に変換する変換器に入力する文章を抽出する場面、又は、感嘆文を平叙文に変換する変換器に入力する文章を抽出する場面に利用してもよい。他にも例えば、文章抽出システム１は、ある地方で使用される方言の文章を、同一言語の（同一の国内での）他の地方で使用される方言の文章に変換する変換器に入力する文章を抽出する場面に利用してもよい。

また例えば、各機能がサーバ１０で実現される場合を説明したが、複数のコンピュータによって機能が分担されてもよい。例えば、サーバ１０及びユーザ端末２０の各々で機能が分担されてもよいし、複数のサーバコンピュータで機能が分担されてもよい。この場合、ネットワークＮを介して処理結果が送受信されることで、機能が分担されるようにすればよい。また例えば、データ記憶部１００に記憶されるものとして説明したデータは、サーバ１０以外のコンピュータに記憶されていてもよい。

１文章抽出システム、Ｎネットワーク、１０サーバ、１１，２１制御部、１２，２２記憶部、１３，２３通信部、２０ユーザ端末、２４操作部、２５表示部、１００データ記憶部、１０１文章取得部、１０２特定部、１０３抽出部、１０４入力部、１０５疑問文取得部、１０６疑問文出力部、ＤＢ１文章データベース、ＤＢ２辞書データベース、ＤＢ３疑問文データベース。

Claims

複数の文章を取得する文章取得手段と、
前記複数の文書の中に、辞書データベースに格納された特徴的な表現が含まれているか否かを判定し、前記複数の文章に含まれる、少なくとも１つの特徴的な表現を特定する特定手段と、
前記複数の文章の中から、前記少なくとも１つの特徴的な表現を含む少なくとも１つの文を、入力文から疑問文を生成する疑問文生成器に入力される少なくとも１つの文として、抽出する抽出手段と、
を実現する少なくとも１つのプロセッサを含むことを特徴とする文抽出システム。
前記疑問文生成器は、前記入力文から計算される特徴量に基づいて、前記疑問文を生成する、
ことを特徴とする請求項１に記載の文抽出システム。
前記文抽出システムは、
前記疑問文生成器を記憶する記憶手段と、
前記少なくとも１つの文を前記疑問文生成器に入力する入力手段と、
前記疑問文生成器により生成された少なくとも１つの疑問文を取得する疑問文取得手段と、
を更に含むことを特徴とする請求項１又は２に記載の文抽出システム。
前記特定手段は、前記複数の文章に含まれる、複数の特徴的な表現を特定し、
前記抽出手段は、抽出される文全体に含まれる特徴的な表現が多くなるように、前記少なくとも１つの文を抽出する、
ことを特徴とする請求項１〜３の何れかに記載の文抽出システム。
前記特定手段は、前記複数の文章に含まれる、複数の特徴的な表現を特定し、
前記抽出手段は、所定の条件に基づいて、前記複数の特徴的な表現の中から、文の抽出に使用される少なくとも１つの特徴的な表現を決定し、前記決定された少なくとも１つの特徴的な表現を含む、前記少なくとも１つの文を抽出する、
ことを特徴とする請求項１〜４の何れかに記載の文抽出システム。
前記抽出手段は、抽出される文の分量が所定の範囲に収まるように、前記少なくとも１つの文を抽出する、
ことを特徴とする請求項１〜５の何れかに記載の文抽出システム。
前記抽出手段は、前記少なくとも１つの特徴的な表現の生起確率を取得し、前記生起確率に基づいて、前記少なくとも１つの文を抽出する、
ことを特徴とする請求項１〜６の何れかに記載の文抽出システム。
前記抽出手段は、前記少なくとも１つの特徴的な表現と、当該表現と係り受け関係にある係り受け語と、の距離である係り受け距離を取得し、前記係り受け距離に基づいて、前記少なくとも１つの文を抽出する、
ことを特徴とする請求項１〜７の何れかに記載の文抽出システム。
前記抽出手段は、前記複数の文章の中から、前記少なくとも１つの特徴的な表現を含み、かつ、当該表現の数と、当該表現と係り受け関係にある係り受け語の数と、が一致する少なくとも１つの文を抽出する、
ことを特徴とする請求項１〜８の何れかに記載の文抽出システム。
前記抽出手段は、前記複数の文章の中から、前記少なくとも１つの特徴的な表現を含み、かつ、当該表現と係り受け関係にある係り受けの語の数が所定の範囲に収まる少なくとも１つの文を抽出する、
ことを特徴とする請求項１〜９の何れかに記載の文抽出システム。
前記抽出手段は、前記複数の文章の中から、前記少なくとも１つの特徴的な表現を含み、かつ、当該表現の数が所定の範囲に収まる少なくとも１つの文を抽出する、
ことを特徴とする請求項１〜１０の何れかに記載の文抽出システム。
前記抽出手段は、抽出される文章の中に、同じ表現を含む文の数が所定の範囲に収まるように、前記少なくとも１つの文を抽出する、
ことを特徴とする請求項１〜１１の何れかに記載の文抽出システム。
前記複数の文章の各々は、評価対象のレビューであり、
前記少なくとも１つの特徴的な表現は、前記評価対象の特徴を示し、
前記疑問文は、レビューの入力をユーザに促すための文章である、
ことを特徴とする請求項１〜１２の何れかに記載の文抽出システム。
前記評価対象は、複数の属性の少なくとも１つに属し、
前記文章取得手段は、前記属性ごとに、複数のレビューを取得し、
前記特定手段は、前記属性ごとに、前記少なくとも１つの特徴的な表現を特定し、
前記抽出手段は、前記属性ごとに、前記複数のレビューの中から、前記少なくとも１つのレビューを抽出する、
ことを特徴とする請求項１３に記載の文抽出システム。
コンピュータに含まれる少なくとも１つのプロセッサが、
複数の文章を取得する文章取得ステップと、
前記複数の文書の中に、辞書データベースに格納された特徴的な表現が含まれているか否かを判定し、前記複数の文章に含まれる、少なくとも１つの特徴的な表現を特定する特定ステップと、
前記複数の文章の中から、前記少なくとも１つの特徴的な表現を含む少なくとも１つの文を、入力文から疑問文を生成する疑問文生成器に入力される少なくとも１つの文として、抽出する抽出ステップと、
を実行することを特徴とする文抽出方法。
複数の文章を取得する文章取得手段、
前記複数の文書の中に、辞書データベースに格納された特徴的な表現が含まれているか否かを判定し、前記複数の文章に含まれる、少なくとも１つの特徴的な表現を特定する特定手段、
前記複数の文章の中から、前記少なくとも１つの特徴的な表現を含む少なくとも１つの文を、入力文から疑問文を生成する疑問文生成器に入力される少なくとも１つの文として、抽出する抽出手段、
として、少なくとも１つのプロセッサを含むコンピュータを機能させるためのプログラム。