JP6757840B2 - 文抽出システム、文抽出方法、及びプログラム - Google Patents

文抽出システム、文抽出方法、及びプログラム Download PDF

Info

Publication number
JP6757840B2
JP6757840B2 JP2019183761A JP2019183761A JP6757840B2 JP 6757840 B2 JP6757840 B2 JP 6757840B2 JP 2019183761 A JP2019183761 A JP 2019183761A JP 2019183761 A JP2019183761 A JP 2019183761A JP 6757840 B2 JP6757840 B2 JP 6757840B2
Authority
JP
Japan
Prior art keywords
sentence
sentences
interrogative
expression
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019183761A
Other languages
English (en)
Other versions
JP2020140692A (ja
Inventor
昌克 ▲浜▼下
昌克 ▲浜▼下
孝司 乾
孝司 乾
浩司 村上
浩司 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of JP2020140692A publication Critical patent/JP2020140692A/ja
Application granted granted Critical
Publication of JP6757840B2 publication Critical patent/JP6757840B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、文章抽出システム、文章抽出方法、及びプログラムに関する。
従来、自然言語処理分野において、文章を解析する技術が検討されている。例えば、特許文献1には、疑問文の一部が空欄部分として設定されたテンプレートを予め用意しておき、入力文から疑問文を生成する疑問文生成器に入力文が入力された場合に、入力文に含まれる単語をテンプレートの空欄部分に挿入することによって疑問文を生成するコンピュータが記載されている。
特開2017−27233号公報
しかしながら、疑問文生成器には、多数の入力文が入力され、疑問文を生成するのに適した特徴的な表現が全ての入力文に含まれているとは限らない。特許文献1の技術では、入力文に含まれる単語をテンプレートの空欄部分に当てはめるだけなので、特徴的な表現を含まない入力文が疑問文生成器に入力されると、何を問いたいのか分からない疑問文が生成され、疑問文の精度を十分に高めることができないことがあった。
本発明は上記課題に鑑みてなされたものであって、その目的は、疑問文生成器に生成させる疑問文の精度を高めることが可能な文章抽出システム、文章抽出方法、及びプログラムを提供することである。
上記課題を解決するために、本発明に係る文章抽出システムは、複数の文章を取得する文章取得手段と、前記複数の文章に含まれる、少なくとも1つの特徴的な表現を特定する特定手段と、前記少なくとも1つの特徴的な表現に基づいて、前記複数の文章の中から、入力文から疑問文を生成する疑問文生成器に入力される少なくとも1つの文章を抽出する抽出手段と、を含むことを特徴とする。
本発明に係る文章抽出方法は、複数の文章を取得する文章取得ステップと、前記複数の文章に含まれる、少なくとも1つの特徴的な表現を特定する特定ステップと、前記少なくとも1つの特徴的な表現に基づいて、前記複数の文章の中から、入力文から疑問文を生成する疑問文生成器に入力される少なくとも1つの文章を抽出する抽出ステップと、を含むことを特徴とする。
本発明に係るプログラムは、複数の文章を取得する文章取得手段、前記複数の文章に含まれる、少なくとも1つの特徴的な表現を特定する特定手段、前記少なくとも1つの特徴的な表現に基づいて、前記複数の文章の中から、入力文から疑問文を生成する疑問文生成器に入力される少なくとも1つの文章を抽出する抽出手段、としてコンピュータを機能させる。
また、本発明の一態様では、前記文章抽出システムは、前記疑問文生成器を記憶する記憶手段と、前記少なくとも1つの文章を前記疑問文生成器に入力する入力手段と、前記疑問文生成器により生成された少なくとも1つの疑問文を取得する疑問文取得手段と、を更に含むことを特徴とする。
また、本発明の一態様では、前記特定手段は、前記複数の文章に含まれる、複数の特徴的な表現を特定し、前記抽出手段は、抽出される文章全体に含まれる特徴的な表現が多くなるように、前記少なくとも1つの文章を抽出する、ことを特徴とする。
また、本発明の一態様では、前記特定手段は、前記複数の文章に含まれる、複数の特徴的な表現を特定し、前記抽出手段は、所定の条件に基づいて、前記複数の特徴的な表現の中から、文章の抽出に使用される少なくとも1つの特徴的な表現を決定し、前記決定された少なくとも1つの特徴的な表現を含む、前記少なくとも1つの文章を抽出する、ことを特徴とする。
また、本発明の一態様では、前記抽出手段は、抽出される文章の分量が所定の範囲に収まるように、前記少なくとも1つの文章を抽出する、ことを特徴とする。
また、本発明の一態様では、前記抽出手段は、前記少なくとも1つの特徴的な表現の生起確率を取得し、前記生起確率に基づいて、前記少なくとも1つの文章を抽出する、ことを特徴とする。
また、本発明の一態様では、前記抽出手段は、前記少なくとも1つの特徴的な表現の係り受け距離を取得し、前記係り受け距離に基づいて、前記少なくとも1つの文章を抽出する、ことを特徴とする。
また、本発明の一態様では、前記抽出手段は、前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含み、かつ、当該表現の数と係り受け語の数とが一致する少なくとも1つの文章を抽出する、ことを特徴とする。
また、本発明の一態様では、前記抽出手段は、前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含み、かつ、当該表現の係り受けの語の数が所定の範囲に収まる少なくとも1つの文章を抽出する、ことを特徴とする。
また、本発明の一態様では、前記抽出手段は、前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含み、かつ、当該表現の数が所定の範囲に収まる少なくとも1つの文章を抽出する、ことを特徴とする。
また、本発明の一態様では、前記抽出手段は、抽出される文章の中に、同じ表現を含む文章の数が所定の範囲に収まるように、前記少なくとも1つの文章を抽出する、ことを特徴とする。
また、本発明の一態様では、前記複数の文章の各々は、評価対象のレビューであり、前記少なくとも1つの特徴的な表現は、前記評価対象の特徴を示し、前記疑問文は、レビューの入力をユーザに促すための文章である、ことを特徴とする。
また、本発明の一態様では、前記評価対象は、複数の属性の少なくとも1つに属し、前記文章取得手段は、前記属性ごとに、複数のレビューを取得し、前記特定手段は、前記属性ごとに、前記少なくとも1つの特徴的な表現を特定し、前記抽出手段は、前記属性ごとに、前記複数のレビューの中から、前記少なくとも1つのレビューを抽出する、ことを特徴とする。
また、本発明の一態様では、取得される前記複数の文章の各々は、少なくとも1つの文を含み、抽出される前記少なくとも1つの文章の各々は、前記複数の文章に含まれる何れかの文である、ことを特徴とする。
本発明によれば、疑問文生成器に生成させる疑問文の精度を高めることができる。
文章抽出システムの全体構成を示す図である。 文章抽出システムが実行する処理の概要を示す図である。 発明者達が行った実験結果を示す図である。 文章抽出システムで実現される機能の一例を示す機能ブロック図である。 文章データベースのデータ格納例を示す図である。 辞書データベースのデータ格納例を示す図である。 疑問文データベースのデータ格納例を示す図である。 疑問文が出力される様子を示す図である。 サーバによって実行される処理を示すフロー図である。
[1.文章抽出システムの全体構成]
以下、本発明に関わる文章抽出システムの実施形態の例を説明する。図1は、文章抽出システムの全体構成を示す図である。図1に示すように、文章抽出システム1は、サーバ10及びユーザ端末20を含み、これらはインターネットなどのネットワークNに接続される。図1では、サーバ10及びユーザ端末20を1台ずつ示しているが、これらは複数台あってもよい。
サーバ10は、サーバコンピュータであり、例えば、制御部11、記憶部12、及び通信部13を含む。制御部11は、少なくとも1つのプロセッサを含む。制御部11は、記憶部12に記憶されたプログラムやデータに従って処理を実行する。記憶部12は、主記憶部及び補助記憶部を含む。例えば、主記憶部はRAMなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信部13は、有線通信又は無線通信用の通信インタフェースを含み、例えば、ネットワークNを介してデータ通信を行う。
ユーザ端末20は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末(タブレット型コンピュータを含む)、又は携帯電話機(スマートフォンを含む)等である。ユーザ端末20は、制御部21、記憶部22、通信部23、操作部24、及び表示部25を含む。制御部21、記憶部22、及び通信部23のハードウェア構成は、それぞれ制御部11、記憶部12、及び通信部13と同様であってよい。操作部24は、入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等である。操作部24は、ユーザの操作内容を制御部21に伝達する。表示部25は、例えば、液晶表示部又は有機EL表示部等である。
なお、記憶部12,22に記憶されるものとして説明するプログラム及びデータは、ネットワークを介してこれらに供給されるようにしてもよい。また、サーバ10及びユーザ端末20の各々のハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、サーバ10及びユーザ端末20の各々は、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部(例えば、光ディスクドライブやメモリカードスロット)や外部機器と直接的に接続するための入出力部(例えば、USB端子)を含んでもよい。この場合、情報記憶媒体に記憶されたプログラムやデータが読取部又は入出力部を介して、サーバ10及びユーザ端末20の各々に供給されるようにしてもよい。
[2.文章抽出システムの概要]
文章抽出システム1は、複数の文章の中から、疑問文生成器に入力される少なくとも1つの文章を抽出する。
文章は、文字列を含む情報のまとまりである。文章は、1つの文だけで構成されてもよいし、複数の文を含んでもよい。文とは、句点、ピリオド、感嘆符、又は疑問符などで終わる(区切られる)一続きの言葉を示す。本実施形態では、1つの文だけで構成される文章については、文章と文は同じ意味になるが、複数の文で構成される文章については、文章は、これら複数の文全体を意味する。文章は、任意の言語で記述されてよく、例えば、英語、日本語、中国語、スペイン語、フランス語、又はアラビア語などであってもよい。また、文章には、任意の内容が記述されてよく、例えば、SNSの投稿、掲示板の投稿、動画や記事などのコンテンツに対するコメント、商品若しくはサービスなどに対するレビュー、又は、電子メール若しくはメッセージアプリなどにおけるメッセージであってもよい。本実施形態では、多数のユーザにより入力された多数の文章がサーバ10に記憶され、その一部が疑問文生成器に入力されるので、文章は、入力文の候補ということもできる。
疑問文生成器とは、入力文に基づいて疑問文を生成するプログラム(アプリケーション)である。別の言い方をすれば、疑問文生成器は、疑問文の変換に特化した換言処理のプログラム、又は、疑問文の生成方法が定義されたアルゴリズムということもできる。疑問文生成器自体は、公知の生成器を利用可能であり、例えば、統計的機械翻訳又はニューラル機械翻訳を流用した手法(論文「L. Nio and K. Murakami. “Intelligence is Asking the Right Question: A Study on Japanese Question Generation.” IEEE Spoken Language Technology conference, 2018.」又は米国特許出願「16/228,594」に係る手法)を利用してもよいし、入力文を疑問文に変換する変換ルールを予め定めておくルールベース又はセミルールベースと呼ばれる手法を利用してもよい。
入力文とは、疑問文生成器に入力される文章である。別の言い方をすれば、入力文は、疑問文に変換される文章である。文章抽出システム1は、複数の文章の中から、入力文となる少なくとも1つの文章を抽出するので、入力文は、抽出後(フィルタリング後)の文章ということもできる。入力文は、疑問文以外の形式であればよく、例えば、平叙文、感嘆文、又は命令文である。入力文は、肯定文であってもよいし、否定文であってもよい。
疑問文とは、相手に答えを問う形の文章である。別の言い方をすれば、疑問文は、入力文が変換された後の文章である。疑問文は、質問文と呼ばれることもある。疑問文は、任意の形式であってよく、例えば、YN疑問文(Yes又はNoの答えを求める疑問文)、WH疑問文(What、Which、Why、WhereなどのWh語又はHowなどの語が冒頭に記載される疑問文)、選択疑問文、付加疑問文、又は、間接疑問文である。疑問文の末尾には、「?」などの疑問符が記載されてもよいし、疑問符は省略されてもよい。なお、疑問文の種類は、これらに限られず、疑問文生成器が対応する言語に応じた任意の種類であってよい。
本実施形態では、動画や記事などのコンテンツに対し、ユーザが入力したコメントが文章に相当する場合を説明する。コメントには、コンテンツの感想が含まれるので、疑問文生成器が生成する疑問文は、コンテンツに関する感想の入力をユーザに促すための文章となる。疑問文は、コメントを入力していないユーザに対して提示されてもよいし、コメントを入力済みのユーザに対して更なるコメントを求めるために提示されてもよい。
例えば、ユーザは、SNSやウェブサイトなどを通じてコメントを入力する。ユーザが入力したコメントの中には、有用な情報を含むコメントもあるが、一言だけの短いコメントも多く、このようなコメントから得られる情報は非常に少ない。このため、本実施形態では、ユーザからのコメントの入力を受動的に待つのではなく、ユーザに対し、能動的に問いかけるために、疑問文を生成して積極的にコメントを収集するようにしている。
この点、従来技術で説明したようなテンプレートを利用して疑問文を生成する手法では、疑問文のバリエーションがテンプレートの数に依存するので、疑問文の表現力に乏しく、ユーザから種々の意見を集めることが難しい。このため、テンプレートを利用した手法に限定せず、他の種々の疑問文生成器を利用することが望ましい。
しかしながら、コメントの中には、挨拶やお礼のようにユーザの感想を含まない文などのように、疑問文の生成に適さないコメントも多い。このため、疑問文の生成に適さないコメントが疑問文生成器に入力されると、何を問いたいのか分からない疑問文が生成され、疑問文の精度が低下してしまう。そこで、文章抽出システム1は、コメントの中から、疑問文の生成に適したコメントを抽出し、疑問文の精度を高めるようにしている。
図2は、文章抽出システム1が実行する処理の概要を示す図である。例えば、サーバ10は、多数のコメントが格納された文章データベースDB1を記憶する。コメントs1のように、挨拶やお礼だけが記述されたコメントは、ユーザの感想を含まないので、疑問文の生成には適さない。また例えば、コメントs3のように、ユーザの感想を含んでいたとしても、複数の内容を含む長いコメントは、疑問文への変換が困難なので、疑問文の生成には適さない。また例えば、コメントs5のように、疑問文への変換が容易なコメントだったとしても、ユーザの感想を引き出せていないコメントは、疑問文の生成には適さない。
一方、コメントs2,s4は、ユーザの感想が引き出されており、かつ、感想が端的に記述されているので、疑問文の生成に適している。例えば、図2に示すように、コメントs1,s3,s5が除外され、コメントs2,s4が疑問文生成器に入力される。これにより、疑問文q1〜q3のように、ユーザの感想を引き出しやすい精度の高い疑問文を生成することができる。このように、文章抽出システム1は、疑問文の生成に適さないコメントを除外し、疑問文の生成に適したコメントを抽出し、疑問文生成器に入力する。
[3.入力文を抽出する手法の一例について]
本実施形態では、入力文を抽出する手法の一例として、整数線形計画問題による文抽出(以降、ILP文抽出)を説明する。例えば、ILP文抽出では、入力として文集合D={s,・・・,s}(Nは2以上の整数)が与えられる。文集合Dは、文章抽出システム1が最初に取得するコメントの集合であり、入力文の抽出元となる母集団である。ILP文抽出は、文集合Dから、適切な部分集合S⊆Dを構成する問題として捉えられる。
ここで,入力文集合を、N次元の0/1ベクトルであるy={y,・・・,y}で表すと、文集合Dの中にある文s(iは1〜Nの任意の整数)がs∈Sであれば、y=1となり、そうでなければ、y=0となるベクトルとして、文抽出の結果を表すことができる。
本実施形態では、ILP文抽出の基本モデルを、次の数式1及び数式2のように定義する。なお、数式3は、数式2のyの値が0又は1になることを示す。
Figure 0006757840
Figure 0006757840
Figure 0006757840
数式1の関数f(y)は、出力候補yの良さを測る評価関数である。本実施形態では、数式2の制約式を満たしつつ、関数f(y)の値が最大となる候補を出力することを目指す。ここで、数式2の制約式内のLmaxは、出力の最大長であり、lは、文sの長さを表している。即ち、数式2は、出力される文全体の分量が多くなりすぎないように制約をかけるための数式である。ILP文抽出では、関数f(y)の定義及び制約式の追加によって、目的に合った文抽出器を設計することができる。
本実施形態では、文抽出器に対し、a)意見を含む文を優先的に抽出すること、b)構文的・意味的に簡潔な文を優先的に抽出すること、及び、c)出力される文集合全体として種々の意見を含むように文を抽出すること、の3つの要件を求めるものとする。意見とは、ユーザの感想であり、後述するように、本実施形態では、評価視点aと評価表現eのペアとして定義される。
例えば、要件a)によって、図2のコメントs1やコメントs5を排除することができる。また例えば、要件b)によって、コメントs3を排除することができる。また例えば、要件c)によって、意見のバリエーションを増やし、出力されるコメントの表現力を確保することができる。
本実施形態では、要件a)〜c)を全て満たす文抽出モデルとして、評価関数を数式4のように定義する。
Figure 0006757840
更に、数式4の評価関数を利用して、数式1及び数式2で定義した基本モデルを、数式5〜数式8のように拡張する。なお、数式5〜数式8に示すyの値は、数式3で示したように0又は1になる。また、数式9は、数式4及び数式8のzjkの値が0又は1になることを示す。
Figure 0006757840
Figure 0006757840
Figure 0006757840
Figure 0006757840
Figure 0006757840
まず、数式4の評価関数について説明する。本実施形態では、コメントに含まれる意見を、評価視点aと評価表現eのペアとして定義する。評価視点aとは、評価する対象となる評価対象(本実施形態では、コメントの投稿対象となるコンテンツ)のうち、具体的に評価される部分や属性のことであり、例えば、「歌声」や「バランス」といった語句である。評価視点aは、評価の観点ということもできる。評価表現eとは、評価対象を評価する言語的表現であり、例えば、「さわやか」や「よい」といった語句である。評価表現eは、評価の具体的な内容であり、ここではユーザの主観的な意見である。評価視点aと評価表現eは、単語であってもよいし、複数の単語を含むフレーズであってもよい。評価視点aと評価表現eは、予め用意しておけばよく、例えば、否定的な文言が用いられないようにしてもよい。
数式4では、評価視点aの集合をQとし、評価表現eの集合をQとする。数式4の変数zjkは、意見<a,e>(評価視点aと評価表現eのペア)が出力に含まれるなら1となり、含まれないなら0となる。数式4の右辺に示すように、変数zjkに後述する重みを乗じた値を全ての意見で足し込むことにより、さまざまな意見を含むほど、評価関数の値が大きくなる。このため、数式4は、抽出される疑問文に含まれる意見のバリエーションを豊富にさせるための数式ということができる。
ここで、数式4のbjk/djkは、意見<a,e>に対する重みを表す。分子bjkは、コメントにおける意見<a,e>の生起確率である。生起確率は、標準的な言い回しであることを示す尺度である。ある表現の生起確率が高いほど、その表現が一般的に用いられており、万人にとって分かりやすい表現であることを示す。生起確率は、予め定められていてもよいし、コメント全体を統計的に分析することによって取得されてもよい。
分母djkは、意見の構成要素である評価視点aと評価表現eの文中における平均係り受け距離である。係り受け距離は、評価視点aと評価表現eがどれだけ離れているかを示す数値であり、例えば、評価視点aと評価表現eの間にある文字数である。
数式4では、bjk/djkの重みを利用することによって、よく使われる標準的な言い回しで、かつ、評価視点aと評価表現eが近接して現れる(即ち、構文的に簡潔な)意見が優先的に抽出されることになる。
次に,基本モデルから追加された制約式である数式5〜数式8について説明する。例えば、数式5の制約式内の関数c(y,a)は、次の式により定義される。
Figure 0006757840
数式10のhijは、文sに評価視点aが含まれていれば1となり、そうでなければ0をとる。つまり、c(y,a)は、評価視点aを含む文が出力される数を示す。ここで,ベクトルyは、出力候補yのy要素以外の値を0にしたベクトルである。結果として、c(y,a)は、文sに評価視点aが含まれていれば1となり、そうでなければ0をとり、数式5の左辺は、sに含まれる評価視点aの異なり数を表す。同様に、数式5の右辺は、sに含まれる評価表現eの異なり数を表す。以上をまとめると,数式5の制約式は、文sが出力に含まれるには、文sに含まれる評価視点aの異なり数と、評価表現eの異なり数と、が同数である(評価視点aと評価表現eがペアとして出現し意見を構成する)ことを課している。
数式6の制約式及び数式7の制約式は、その数がたかだか1つであることを課している。これら2つの制約は、意見を含む文を抽出する際に、その意見は、簡潔に表現されていることを要請する。
数式8が示す制約式は、文sの出力に関する変数yと出力に含まれる意見に関する変数zjk間の整合性を保つための関係式である。この式のoijkは、文sに意見<a,e>が含まれていれば1、そうでなければ0をとる。つまり、出力中に意見<a,e>が含まれるためには、<a,e>を含む文が1つ以上出力されなければならない事を課している。
本実施形態の文章抽出システム1は、上記説明したILP文抽出により、サーバ10に登録されたコメントの中から、疑問文の生成に適したコメントを抽出する。文章抽出システム1は、上記説明した制約式の全てを利用してもよいし、一部だけを利用してもよい。例えば、出力文内に含まれる意見を制御する数式5が示す制約式と、数式6及び数式7が示す制約式(数式6及び数式7は、1対で使用する制約式)と、の両方を利用してもよいし、何れか一方のみを利用してもよい。
図3は、発明者達が行った実験結果を示す図である。なお、当該実験結果は、本実施形態で説明するコンテンツのコメントに対して行われた実験ではなく、特定の商品のレビューに対して行われた実験を示している。この実験は、700件程度のレビューに対して行われ、最大出力長Lmaxが要約率5%程度になるように設定されているが、母集団の文章の量や要約率は、これらに限られない。
なお、図3の「モデルA」は、数式5が示す制約式と、数式6及び数式7が示す制約式と、の両方を使用するモデルである。「モデルB」は、数式5が示す制約式を使用し、数式6及び数式7が示す制約式は使用しないモデルである。「モデルC」は、数式5が示す制約式は使用せず、数式6及び数式7が示す制約式を使用するモデルである。「モデルD」は、数式5が示す制約式と、数式6及び数式7が示す制約式と、を何れも使用しないモデルである。また、図3に示す「抽出文数」は、母集団の中から各モデルが抽出した文の数である。「抽出適合数」は、抽出すべき文(疑問文の生成に適していると思われる文)を各モデルが抽出できた割合である。「異なり意見数」は、意見のバリエーションである。「文字数/文」は、1文当たりの平均文字数である。
図3に示すように、発明者達の実験結果によると、上記説明したILP文抽出により、要件a)を満たす、ユーザの意見を含むコメントを抽出できることが確認されている。また、数式5が示す制約式と、数式6及び数式7が示す制約式と、の両方を利用するモデルAと、何れも利用しないモデルDと、では大きく出力結果の特徴が異なる。数式5が示す制約式だけを利用するモデルBは、その中間であり、数式6及び数式7が示す制約式だけを利用するモデルCは、今回の実験結果の設定では、これらを両方とも使用するモデルAと同じ結果であった。そこで、これらの両方とも利用するモデルAと、何れも利用しないモデルDと、の結果の詳細を比較する。
まず、抽出適合率を見ると、モデルAが高い値を示しており、モデルDよりも、疑問文生成に適したコメントをうまく抽出できている。異なり意見数は、モデルDの方が多いが、これは1文当たりの文字数からも分かるように、モデルDは、長いコメントを選択し、評価関数値を上げるために1文に複数の意見が含まれた文を優先的に出力した結果であるといえる。これは要件c)には合致するが、要件b)の観点から見ると適した結果とはいえない。
一方、モデルAは、逆の傾向を示しており、数式5〜数式7の各々の制約式の作用により、意見を1つ含む短い文を優先的に出力している。モデルAは、抽出文の文長が短いことから、抽出文数がモデルDよりも多くなることが期待されるが実験結果ではそうならなかった。この理由は、モデルAが有する制約を満たす文が、実験時に使用したデータセットにわずかしか含まれておらず、Lmax限界近くまで文出力がなされなかったためである。入力に制約を満たす文が存在すれば、抽出文数が増え、それに伴って抽出される異なり意見数も延びると予想される。
以上のように、本実施形態の文章抽出システム1は、全てのコメントを疑問文生成器に入力するのではなく、疑問文を生成するのに適したコメントに絞り込むことにより、疑問文生成器に生成させる疑問文の精度を高めるようにしている。以降、文章抽出システム1が有する構成の詳細を説明する。
[4.本実施形態において実現される機能]
図4は、文章抽出システム1で実現される機能の一例を示す機能ブロック図である。図4に示すように、例えば、データ記憶部100、文章取得部101、特定部102、抽出部103、入力部104、疑問文取得部105、及び疑問文出力部106が実現される。本実施形態では、これら各機能がサーバ10において実現される。データ記憶部100は、記憶部12を主として実現され、他の各機能は、制御部11を主として実現される。
[4−1.データ記憶部]
データ記憶部100は、文章を抽出するために必要なデータを記憶する。例えば、データ記憶部100は、疑問文生成器、文章データベースDB1、辞書データベースDB2、及び疑問文データベースDB3を記憶する。なお、図4では、疑問文生成器の符号は省略する。
先述したように、疑問文生成器自体は、公知の種々の手法を利用可能であり、データ記憶部100は、疑問文生成器のプログラムやパラメータなどのデータを記憶する。例えば、機械翻訳を流用する手法であれば、データ記憶部100は、入力文と疑問文の関係を示す教師データによってパラメータが調整されたモデルを疑問文生成器として記憶する。例えば、教師データは、入力文を疑問文に変換した文章を人間の手で作成し、入力文と疑問文のペアが教師データに格納される。
また例えば、ルールベース又はセミルールベースを利用するのであれば、データ記憶部100は、入力文を疑問文に変換する変換ルールを含む疑問文生成器を記憶する。変換ルールは、入力文と疑問文の関係であり、例えば、語順の入れ替えルールや疑問詞の挿入位置などが示されている。変換ルールは、言語に応じて人間が手動で指定すればよい。他にも例えば、テンプレートを利用するのであれば、データ記憶部100は、テンプレートを含む疑問文生成器を記憶する。テンプレートは、入力文の一部の語句を挿入可能となっており、入力文の特徴的な表現をテンプレートに挿入することによって、疑問文が生成される。
図5は、文章データベースDB1のデータ格納例を示す図である。図5に示すように、文章データベースDB1は、複数の文章が格納されたデータベースである。例えば、文章データベースDB1には、評価対象を一意に識別する対象ID、評価対象の属性、評価対象の名前、及びユーザが入力したコメントが格納される。
本実施形態では、コンテンツに対してコメントが入力されるので、評価対象は、コンテンツであり、対象IDは、コンテンツを一意に識別する情報である。評価対象は、コメントの入力対象ということもできる。属性は、評価対象の分類であり、例えば、カテゴリ又はジャンルとも呼ばれる。本実施形態のように、コンテンツであれば、属性は、「コメディ」「ホラー」「教育」といったコンテンツの分類である。属性は、コンテンツが登録される際に指定されるものとする。本実施形態では、評価対象は、複数の属性の少なくとも1つに属するものとして説明するが、特に属性によって分類されていなくてもよい。評価対象の名前は、ユーザに評価対象を識別させるために付与された文字列であり、本実施形態では、コンテンツ名である。
文章データベースDB1には、ユーザが入力した任意の長さの文章がコメントとして格納される。本実施形態では、ユーザが自由に文章を入力できるものとするが、ある程度のフォーマットが定められていてもよい。文章1つ当たりの長さは、任意であってよく、例えば、上限文字数及び下限文字数の少なくとも一方が設定されていてもよい。
図6は、辞書データベースDB2のデータ格納例を示す図である。図6に示すように、辞書データベースDB2は、特徴的な表現が格納されたデータベースである。例えば、辞書データベースDB2には、評価視点aのリストと、評価表現eのリストと、が格納される。なお、これらのリストは、別々のデータベースに格納されていてもよい。また、辞書データベースDB2の内容は、文章抽出システム1の管理者によって編集可能であってもよい。
特徴的な表現は、入力文を抽出する際に参照される表現であり、例えば、疑問文の生成に適するか否かの判断基準となる表現である。特徴的な表現は、予め定められた表現であればよく、本実施形態では、ユーザの感想や評価対象の特徴(性質)を示す表現である。特徴的な表現は、1つの単語だけで構成されてもよいし、複数の単語を含むフレーズであってもよい。
本実施形態では、評価表現eが特徴的な表現に相当する場合を説明する。このため、本実施形態で評価表現eと記載した箇所は、特徴的な表現と読み替えることができる。なお、評価表現eではなく、評価視点aが特徴的な表現に相当してもよいし、特に評価表現eと評価視点aを使い分けるのではなく、管理者が指定した語句が特徴的な表現に相当してもよい。
また、評価対象の属性によって、特徴的な表現が変わることが考えられるので、辞書データベースDB2は、属性ごとに定義されていてもよい。例えば、「コメディ」の属性のコンテンツであれば、「楽しい」や「面白い」といった表現が特徴的な表現として定義されており、「ホラー」の属性のコンテンツであれば、「怖い」や「びっくり」といった表現が特徴的な表現として定義されていてもよい。
図7は、疑問文データベースDB3のデータ格納例を示す図である。図7に示すように、疑問文データベースDB3は、疑問文生成器により生成された疑問文が格納されたデータベースである。コンテンツの属性によってユーザの感想を引き出しやすい疑問文が異なることがあるので、本実施形態では、疑問文データベースDB3には、評価対象の属性ごとに、疑問文が格納される場合を説明するが、特に属性に関係なく疑問文が格納されてもよい。疑問文データベースDB3に格納された疑問文は、任意のタイミングでユーザ端末20に表示され、ユーザに対し、コメントの入力が促される。
なお、データ記憶部100に記憶されるデータは、上記の例に限られない。例えば、データ記憶部100は、意見(評価視点aと評価表現eのペア)の生起確率が格納された生起確率データベースを記憶してもよい。生起確率データベースには、文章における意見の出現度が集計されることにより生起確率が計算されて格納される。文章データベースDB1に格納された文章を利用して生起確率が集計されてもよいし、他の文章を利用して生起確率が集計されてもよい。生起確率データベースには、評価視点aと評価表現eのペアではなく、評価視点aだけの生起確率が格納されてもよいし、評価表現eだけの生起確率が格納されてもよい。
[4−2.文章取得部]
文章取得部101は、複数の文章を取得する。文章取得部101が取得する文章は、母集団となる文集合Dである。本実施形態では、文書データベースに文章が格納されているので、文章取得部101は、文章データベースDB1を参照し、複数の文章を取得する。
本実施形態では、1つの文章の中に含まれる文の数は、1つとは限られず、ユーザが自由に決めることができるので、文章取得部101により取得される複数の文章の各々は、少なくとも1つの文を含むことになる。ある文章に含まれる文の数は、他の文章に含まれる文の数と同じであってもよいし、互いに異なっていてもよい。
文章取得部101は、文章データベースDB1に格納された全ての文章を取得してもよいし、一部の文章だけを取得してもよい。文章取得部101が取得する文章の分量は、特に定められていなくてもよいし、所定の範囲に収まるようにしてもよい。
文章の分量は、任意の指標で示されてよく、例えば、文章の総数、文(文章に含まれる個々の文)の総数、総文字数、又は総単語数で示される。所定の範囲は、上限値であってもよいし、下限値であってもよいし、これらの両方であってもよい。例えば、文章取得部101は、文章の総数が所定の範囲になるように文章を取得したり、文の総数が所定の範囲になるように文章を取得したりする。また例えば、文章取得部101は、総文字数が所定の範囲になるように文章を取得したり、総単語数が所定の範囲になるように文章を取得したりする。
本実施形態では、コンテンツの属性に応じた内容の疑問文を生成するために、文章取得部101は、属性ごとに、複数の文章を取得する。文章取得部101は、文章データベースDB1に格納された文章のうち、疑問文の生成対象となる属性に関連付けられた文章を取得する。疑問文の生成対象となる属性は、複数の属性のうちの少なくとも1つであればよく、例えば、文章抽出システム1の管理者によって指定されてもよいし、所定のアルゴリズムにより選択されてもよい。
[4−3.特定部]
特定部102は、複数の文章に含まれる、少なくとも1つの特徴的な表現を特定する。本実施形態では、辞書データベースDB2に特徴的な表現が定義されているので、特定部102は、文章取得部101が取得した複数の文章の中に、辞書データベースDB2に格納された特徴的な表現が含まれているか否かを判定する。別の言い方をすれば、特定部102は、文章取得部101が取得した複数の文章の中から、辞書データベースDB2に格納された特徴的な表現を検索する。
本実施形態では、文章取得部101が取得した全ての文章(複数の文章の全体)が特徴的な表現の探索対象となる場合を説明するが、その一部だけが検索対象となってもよい。例えば、特定部102は、辞書データベースDB2に格納された特徴的な表現をクエリとし、文章取得部101が取得した複数の文章を検索する。検索は、文字列の完全一致を判定してもよいし、あいまい検索が利用されてもよい。
文章取得部101が取得する複数の文章には、複数の特徴的な表現が含まれている場合、特定部102は、複数の文章に含まれる、複数の特徴的な表現を特定することになる。また、特定部102は、商品の属性に関係なく特徴的な表現を取得してもよいが、本実施形態では、属性ごとに文章が取得されるので、特定部102は、属性ごとに、少なくとも1つの特徴的な表現を特定する。
本実施形態では、特定部102は、辞書データベースDB2に基づいて、文章取得部101が取得した文章に含まれる、評価視点aと評価表現eのペアである意見<a,e>を特定する。例えば、評価視点aと評価表現eが同じ文中に存在する場合、特定部102は、意見<a,e>が存在すると判定する。なお、特に評価視点aを用いない場合には、特定部102は、評価表現eだけを特定してもよい。また、特に評価表現eを用いない場合には、特定部102は、評価視点aだけを特定してもよい。また、評価視点aと評価表現eを特に区別しない場合には、特定部102は、文章取得部101が取得した文章の中から、辞書データベースDB2に格納された語句を特徴的な表現として特定すればよい。
[4−4.抽出部]
抽出部103は、特定部102により特定された少なくとも1つの特徴的な表現に基づいて、複数の文章の中から、入力文から疑問文を生成する疑問文生成器に入力される少なくとも1つの文章を抽出する。ここでの抽出とは、入力文の絞り込み、選択、又は、フィルタリングということもできる。別の言い方をすれば、抽出部103は、複数の文章の要約を作成するということもできる。
文章取得部101により取得される文章の単位と、抽出部103により抽出される文章の単位と、は同じであってもよいし、異なっていてもよい。例えば、1つの文だけから構成される複数の文章の中から、少なくとも1つの文章が抽出される場合には、抽出前後における文章の単位は同じとなる。一方、複数の文から構成される複数の文の中から、個々の文が抽出される場合には、抽出前後における文章の単位は異なる。即ち、抽出部103により抽出される文章の単位は、文章取得部101により取得される文章の単位よりも小さくなる。
本実施形態では、抽出部103により抽出される少なくとも1つの文章の各々は、文章取得部101が取得した複数の文章に含まれる何れかの文となる。即ち、本実施形態では、抽出される文章は、個々の1つ1つの文である。このため、複数の文を含む文章であれば、その全ての文か抽出されることもあれば、一部の文だけが抽出され、残りの文が抽出されないことも起こりうる。
抽出部103は、特定部102により特定された特徴的な表現を含む文章を、少なくとも1つ抽出すればよい。例えば、抽出部103は、ある特徴的な表現を含む文章を全て抽出してもよいし、その一部だけを抽出してもよい。一部だけを抽出する場合には、抽出部103は、長さが短い文章を優先的に抽出してもよいし、ランダムに抽出してもよい。他にも例えば、抽出部103は、信頼性のあるユーザが入力した文章を優先的に抽出してもよい。
本実施形態では、抽出部103は、抽出される文章の分量が所定の範囲に収まるように、少なくとも1つの文章を抽出する。所定の範囲とは、分量の上限値であってもよいし、分量の下限値であってもよいし、これらの両方であってもよい。例えば、数式2に示されるように、抽出部103は、抽出後の文章の長さの合計値が閾値であるLmax以下になるように、少なくとも1つの文章を抽出する。閾値は、予め定めておけばよく、文章抽出システム1の管理者によって変更可能であってもよいし、属性ごとに定めておいてもよい。
特定部102により複数の特徴的な表現が特定された場合には、抽出部103は、抽出される文章全体に含まれる特徴的な表現が多くなるように、少なくとも1つの文章を抽出する。即ち、抽出部103は、ある特定の1つの文章の中で特徴的な表現が多くなるのではなく、抽出される全ての文章の中で特徴的な表現が多くなるように文章を抽出する。本実施形態では、数式1〜数式10を利用したILP文抽出を実行することで、より多くの表現を含むバリエーションに富んだ文章を抽出する場合を説明するが、他の方法によって、特徴的な表現が多く含まれるように、文章が抽出されてもよい。
例えば、抽出部103は、抽出される文章全体として、所定数以上の特徴的な表現が含まれるように、文章を抽出してもよい。この場合、抽出部103は、特定部102により特定された複数の特徴的な表現のうち、所定数以上の表現を文章の抽出で用いてもよいし、所定割合以上の表現を文章の抽出で用いてもよい。別の言い方をすれば、抽出部103は、所定数又は所定割合以上の特徴的な表現の各々について、当該表現を含む少なくとも1つの文章を抽出すればよい。
なお、特定部102により複数の特徴的な表現が特定された場合には、抽出部103は、その全てを文章の抽出で利用してもよいし、その一部だけを文章の抽出で利用してもよい。特徴的な表現の一部だけが文章の抽出で利用される場合には、抽出部103は、所定の条件に基づいて、複数の特徴的な表現の中から、文章の抽出に使用される少なくとも1つの特徴的な表現を決定し、少なくとも1つの特徴的な表現に基づいて、少なくとも1つの文章を抽出する。
所定の条件とは、文章の抽出で利用する特徴的な表現を決定するための条件であり、例えば、数式4の評価関数を最大化することである。なお、所定の条件は、予め定められた条件であればよく、例えば、数式4の評価関数の値を最大化するのではなく、閾値以上にすることであってもよいし、他の評価関数の値を最大化又は閾値以上にすることであってもよい。他にも例えば、所定の条件は、生起確率が所定値以上になることであってもよいし、特徴的な表現に優先順位を付けておき、優先順位が高い表現が利用されるようにしてもよい。
例えば、抽出部103は、少なくとも1つの特徴的な表現の生起確率を取得し、生起確率に基づいて、少なくとも1つの文章を抽出する。本実施形態では、生起確率は、データ記憶部100に予め記憶されているので、抽出部103は、データ記憶部100を参照し、生起確率を取得する。なお、抽出部103は、文章取得部101が取得した複数の文章の中で生起確率を計算してもよい。この場合、文章取得部101が取得した複数の文章の中で登場する頻度が高いほど生起確率が高くなる。
抽出部103は、生起確率が高い文章が優先的に抽出されるように、少なくとも1つの文章を抽出する。本実施形態では、数式4の評価関数の重みとして生起確率が定義されており、生起確率が高いほど重みが大きくなる。抽出部103は、数式4の評価関数に基づいて、文章の抽出で利用する特徴的な表現を決定し、当該表現を含む文章を抽出する。
なお、生起確率を利用して文章を抽出する方法は、本実施形態の例に限られない。例えば、抽出部103は、生起確率が高い順に所定個数の表現を選択し、当該選択された表現を含む文章を抽出してもよい。また例えば、抽出部103は、生起確率が閾値以上の表現の全部又は一部を選択し、当該選択された表現を含む文章を抽出してもよい。
また例えば、抽出部103は、少なくとも1つの特徴的な表現の係り受け距離を取得し、係り受け距離に基づいて、少なくとも1つの文章を抽出する。本実施形態では、複数の文章全体の中での平均係り受け距離が利用されるので、抽出部103は、文章取得部101が取得した複数の文章のうち、特徴的な表現を含む複数の文章を選択し、当該複数の文章の各々における係り受け距離を計算し、その平均値を計算する。係り受け距離は、評価視点aと評価表現eとを含む文におけるこれらの近さであり、文字数や単語数で示される。なお、特徴的な表現を含む文章が1つしかなかった場合には、その文章における係り受け距離がそのまま平均係り受け距離となる。
抽出部103は、係り受け距離が短い文章が優先的に抽出されるように、少なくとも1つの文章を抽出する。本実施形態では、数式4の評価関数の重みとして係り受け距離が定義されており、係り受け距離が短いほど重みが大きくなる。抽出部103は、数式4の評価関数に基づいて、文章の抽出で利用する特徴的な表現を決定し、当該表現を含む文章を抽出する。
なお、係り受け距離を利用して文章を抽出する方法は、本実施形態の例に限られない。例えば、抽出部103は、平均係り受け距離が短い順に所定個数の表現を選択し、当該選択された表現を含む文章を抽出してもよい。また例えば、抽出部103は、平均係り受け距離が閾値以下の表現の全部又は一部を選択し、当該選択された表現を含む文章を抽出してもよい。
また例えば、抽出部103は、複数の文章の中から、少なくとも1つの特徴的な表現を含み、かつ、当該表現の数と係り受け語の数とが一致する少なくとも1つの文章を抽出する。係り受け語とは、特徴的な表現に係る語であり、本実施形態では、評価視点aである。係り受け語となりうる語句は、辞書データベースDB2に定義しておけばよい。抽出部103は、1つの文章中に評価視点aと評価表現eが登場した場合に、ある評価視点aが他の評価表現eに係ると判定する。本実施形態では、抽出部103は、数式5が示す制約式に基づいて、特徴的な表現を含んでいたとしても、係り受け語がなかったり、係り受け語との数が一致していなかったりした場合には、その文章は抽出しない。例えば、2つの評価視点と1つの評価表現を含む文章については、これらの数が一致しないので抽出されない。
また例えば、抽出部103は、複数の文章の中から、少なくとも1つの特徴的な表現を含み、かつ、当該表現の係り受けの語の数が所定の範囲に収まる少なくとも1つの文章を抽出する。所定の範囲は、予め定められた範囲であればよく、上限数及び下限数の少なくとも一方が決められている。本実施形態では、数式6に示すように、抽出部103は、係り受け語が1つ以下の文章を抽出するが、所定の範囲は1以下に限られず、2以下又は3以下などといった任意の範囲であってよい。
また例えば、抽出部103は、複数の文章の中から、少なくとも1つの特徴的な表現を含み、かつ、当該表現の数が所定の範囲に収まる少なくとも1つの文章を抽出する。所定の範囲は、予め定められた範囲であればよく、上限数及び下限数の少なくとも一方が決められている。本実施形態では、数式7に示すように、抽出部103は、特徴的な表現が1つ以下の文章を抽出するが、所定の範囲は1以下に限られず、2以下又は3以下などといった任意の範囲であってよい。
また例えば、本実施形態では、抽出される文章の中に、同じ表現を含む文章の数が所定の範囲に収まるように、少なくとも1つの文章を抽出する。所定の範囲は、予め定められた範囲であればよく、上限数及び下限数の少なくとも一方が決められている。即ち、抽出部103は、ある表現について、当該表現を含む文章が重複して所定数以上抽出されないように、文章を抽出する。例えば、抽出部103は、入力文の抽出で利用する意見<a,e>ごとに、当該意見<a,e>を含む文章の数が所定の範囲となるように、文章を抽出する。このため、同じ意見<a,e>を含む文章が多数抽出されないようになっている。なお、本実施形態では、同じ表現を含む文章が1つだけ抽出される場合を説明するが、2つ又は3つといった任意の数が抽出されてもよい。
本実施形態では、疑問文の生成対象となる属性が指定されるので、抽出部103は、属性ごとに、複数の文章の中から、少なくとも1つの文章を抽出することになる。抽出部103は、疑問文の生成対象となる属性に関連付けられた文章の中から、当該属性の疑問文を生成するための入力文を抽出することになる。
[4−5.入力部]
入力部104は、抽出部103により抽出された少なくとも1つの文章を疑問文生成器に入力する。例えば、機械翻訳を流用した疑問文生成器であれば、入力部104は、文章の特徴量(特徴ベクトル)を計算し、疑問文生成器に入力する。疑問文生成器は、文章の特徴量に基づいて、疑問文を出力する。なお、疑問文生成器が特徴量を計算するアルゴリズムを有している場合には、入力部104は、文章が示す文字列をそのまま疑問文に入力し、疑問文生成器は、自身で特徴量を計算し、疑問文を出力してもよい。
また例えば、ルールベース又はセミルールベースの疑問文生成器であれば、入力部104は、文章が示す文字列をそのまま疑問文生成器に入力し、疑問文生成器は、所定の変換ルールに基づいて、疑問文に変換する。また例えば、テンプレートを利用した疑問文生成器であれば、入力部104は、文章が示す文字列をそのまま疑問文生成器に入力し、疑問文生成器は、テンプレートを利用して疑問文を出力する。
[4−6.疑問文取得部]
疑問文取得部105は、疑問文生成器により生成された少なくとも1つの疑問文を取得する。疑問文取得部105は、疑問文生成器の出力内容を取得し、疑問文データベースDB3に格納する。本実施形態では、疑問文の生成対象となる属性が指定されるので、疑問文取得部105は、当該属性に関連付けて疑問文を疑問文データベースDB3に格納する。属性に関連付けられた疑問文は、当該属性の評価対象が提供されたユーザに対して出力される。
[4−7.疑問文出力部]
疑問文出力部106は、疑問文データベースDB3に基づいて、疑問文を出力する。図8は、疑問文が出力される様子を示す図である。図8に示すように、例えば、疑問文出力部106は、疑問文データベースDB3に格納された疑問文q3をユーザ端末20に表示させ、ユーザによるコメントの入力を促す。本実施形態では、疑問文出力部106は、文章を入力していないユーザに対し、疑問文を出力する場合を説明するが、疑問文は、文章を入力済みのユーザに対して出力されてもよい。疑問文出力部106は、ユーザ端末20に表示されるコンテンツの属性に関連付けられた疑問文を出力する。複数の疑問文が生成されている場合には、疑問文出力部106は、ランダムに任意の疑問文を出力してもよいし、生起確率が高い表現を含む疑問文を出力してもよい。
[5.本実施形態において実行される処理]
図9は、サーバ10によって実行される処理を示すフロー図である。図9に示す処理は、制御部11が記憶部12に記憶されたプログラムに基づいて動作することによって実行される。図9に示す処理は、図4に示す機能ブロックにより実行される処理の一例である。
図9に示すように、制御部11は、疑問文の生成対象となる属性を決定する(S1)。S1においては、制御部11は、予め用意された複数の属性のうち、少なくとも1つを生成対象の属性として決定する。先述したように、生成対象の属性は、管理者が指定してもよいし、アルゴリズムに基づいて決定されてもよい。
制御部11は、記憶部12に記憶された文章データベースDB1を参照し、疑問文の生成対象となる属性に関連付けられた複数の文章を取得する(S2)。S2においては、制御部11は、文章データベースDB1に格納された文章のうち、疑問文の生成対象となる属性の評価対象に対して入力された文章を、入力文抽出の母集団として取得する。
制御部11は、辞書データに基づいて、S2で取得した複数の文章に含まれる少なくとも1つの意見<a,e>を特定する(S3)。S3においては、制御部11は、辞書データに格納された評価視点aと評価表現eをクエリとし、S2で取得した複数の文章を探索することによって、意見<a,e>を特定する。
制御部11は、生起確率データベースに基づいて、S3で特定した意見<a,e>ごとに、生起確率を取得する(S4)。生起確率データベースには、意見<a,e>ごとに生起確率が格納されており、S4では、制御部11は、意見<a,e>に関連付けられた生起確率を取得する。
制御部11は、S2で特定した意見<a,e>ごとに、平均係り受け距離を取得する(S5)。S5では、制御部11は、意見<a,e>ごとに、当該意見<a,e>を含む文章を特定し、当該特定した文章における評価視点aと評価表現eの距離を計算し、その平均値を取る。
制御部11は、生起確率、平均係り受け距離、及び、数式1〜数式10のILP文抽出に基づいて、S1で取得された複数の文章の中から、疑問文生成器に入力される少なくとも1つの文章を抽出する(S6)。S6における処理の詳細は、[3.入力文を抽出する手法の一例について]で説明した通りである。
制御部11は、疑問文生成器に、S6で抽出した少なくとも1つの文章を入力する(S7)。S6において複数の文章が抽出された場合には、S7においては、制御部11は、疑問文生成器に、個々の文章を別々に入力する。
制御部11は、疑問文生成器から出力された少なくとも1つの疑問文を取得し(S8)、本処理は終了する。S8においては、制御部11は、疑問文生成器から出力された疑問文を、S1で決定された属性に関連付けて疑問文データベースDB3に格納する。疑問文データベースDB3に格納された疑問文は、任意のタイミングでユーザ端末20に表示される。例えば、ユーザが視聴するコンテンツの属性に関連付けられた疑問文がユーザ端末20に表示され、コンテンツに対するコメントの入力が促される。
以上説明した文章抽出システム1によれば、複数の文章に含まれる少なくとも1つの特徴的な表現に基づいて、複数の文章の中から疑問文生成器に入力される少なくとも1つの文章を抽出することで、特徴的な表現が含まれていない文章が疑問文生成器に入力され、例えば、何を問いたいのか分からない疑問文、違和感のある疑問文、又はユーザの感想を引き出すことができない疑問文といった不要な疑問文が生成されることを防止し、疑問文生成器に生成させる疑問文の精度を高めることができる。例えば、特徴的な表現が含まれていない文章が疑問文生成器に入力されると、不要な疑問文を生成するための不要な処理が実行され、疑問文生成器を実行するコンピュータの処理負荷が増大する可能性があるが、特徴的な表現が含まれていない文章は、疑問文生成器に入力されず、不要な処理が実行されないので、上記コンピュータの処理負荷を軽減することができる。また、不要な疑問文が生成されると、当該不要な疑問文のために、疑問文を蓄積するメモリの消費量が増大してしまうが、精度の高い疑問文だけを生成することで、メモリの消費量を抑制することができる。また、複数の文章の中から、疑問文を生成するのに適した文章をユーザに手動で抽出させると、非常に手間がかかってしまうが、複数の文章に含まれる特徴的な表現に基づいて文章を抽出することで、ユーザの手間を軽減することができる。また、疑問文生成器が生成した疑問文をユーザに提示して回答を求める場合には、提示する疑問文の精度が高まるので、疑問文に回答するユーザの手間を軽減することができる。即ち、ユーザから有用な情報を取得するために、ユーザが回答を入力する回数を減らすことができる。
また、文章抽出システム1内に、疑問文生成器のプログラムが記憶され、文章抽出システム1自ら疑問文を生成する処理を実行することで、文章抽出システム1に疑問文を取得させることができる。上記説明したように、疑問文生成器を実行するコンピュータの処理負荷を軽減したりメモリ消費を抑制したりすることができるので、文章抽出システム1において疑問文生成器が実現されることで、文章抽出システム1の処理負荷を軽減したりメモリ消費を抑制したりすることができる。
また、抽出される文章に含まれる特徴的な表現が多くなるように、少なくとも1つの文章を抽出することで、表現のバリエーションに富んだ文章を抽出することができ、疑問文の精度を効果的に高めることができる。例えば、特徴的な表現が多くなるように文章を抽出しない場合には、5つの文章が出力されてその中に5つの意見が含まれるといったときに、1つ目の文章に3つの意見が含まれ、2つ目の文章に2つの意見が含まれ、他の文章には一切意見が含まれないといったことが起こりうるが、文章抽出システム1によれば、5つの文章に万遍なく1つの意見を含ませることができ、入力文の表現のバリエーションを増やすことができる。
また、複数の文章の中には、種々のタイプの特徴的な表現が含まれており、疑問文を生成するのに適した表現もあれば、疑問文を生成するのに適していない表現もある。文章抽出システム1によれば、複数の文章に含まれる複数の特徴的な表現の中から、使用する少なくとも1つの特徴的な表現を決定したうえで、少なくとも1つの文章を抽出することで、疑問文を生成するのに適した表現を使用し、疑問文の精度を効果的に高めることができる。また、使用する特徴的な表現を絞り込むことにより、疑問文生成器に入力する入力文を、精度の高い疑問文を得られるものだけに絞り込み、精度の低い疑問文を取得するために余計な処理を実行する必要がなくなり、処理負荷を効果的に抑制することができる。また、疑問文生成器から、精度の高い疑問文だけを取得することで、精度の低い疑問文を記憶するために余計なメモリ領域を使用する必要がなくなり、メモリ消費量を効果的に抑制することができる。
また、抽出される文章の分量が所定の範囲に収まるように、少なくとも1つの文章を抽出することで、精度の高い疑問文を得られる文章に絞りこむことができ、疑問文の精度を効果的に高めることができる。また、疑問文生成器に入力される文章の分量が抑制され、疑問文生成器に、より少ない処理量で精度の高い疑問文を出力させることができ、処理負荷を効果的に抑制することができる。また、疑問文生成器に入力される文章の分量が抑制され、疑問文生成器から出力される疑問文の分量も抑制することができ、メモリ消費量を効果的に抑制することができる。
また、複数の文章に含まれる少なくとも1つの特徴的な表現の生起確率に基づいて、少なくとも1つの文章を抽出することで、より標準的な表現を含む文章を疑問文生成器に入力させることができ、より分かりやすい精度の高い疑問文を取得することができる。また、生起確率を利用して文章を絞りこむことにより、疑問文生成器に余計な処理を実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。
また、複数の文章に含まれる少なくとも1つの特徴的な表現の係り受け距離に基づいて、少なくとも1つの文章を抽出することで、特徴的な表現と係り受け語との距離が考慮された分かりやすい文章を疑問文生成器に入力させることができ、より分かりやすい精度の高い疑問文を取得することができる。また、係り受け距離を利用して文章を絞りこむことにより、疑問文生成器に余計な処理を実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。
また、複数の文章に含まれる少なくとも1つの特徴的な表現を含み、かつ、当該表現の数と係り受け語の数とが一致する少なくとも1つの文章を抽出することで、特徴的な表現と係り受け語の数の一致が考慮された分かりやすい文章を疑問文生成器に入力させることができ、より分かりやすい精度の高い疑問文を取得することができる。また、特徴的な表現と係り受け語の数の一致を利用して文章を絞りこむことにより、疑問文生成器に余計な処理を実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。
また、複数の文章に含まれる少なくとも1つの特徴的な表現を含み、かつ、当該表現の係り受け語の数が所定の範囲に収まる少なくとも1つの文章を抽出することで、係り受け語の数が考慮された分かりやすい文章を疑問文生成器に入力させることができ、より分かりやすい精度の高い疑問文を取得することができる。また、係り受け語の数を利用して文章を絞りこむことにより、疑問文生成器に余計な処理を実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。例えば、係り受け語が1つ以下の文章を抽出するようにした場合には、図2のコメントs3のような冗長な文章を排除し、よりシンプルで疑問文に変換しやすい文章を抽出することができるので、疑問文の精度を効果的に高めることができる。
また、複数の文章に含まれる少なくとも1つの特徴的な表現を含み、かつ、当該表現の数が所定の範囲に収まる少なくとも1つの文章を抽出することで、特徴的な表現の数が考慮された分かりやすい文章を疑問文生成器に入力させることができ、より分かりやすい精度の高い疑問文を取得することができる。また、特徴的な表現の数を利用して文章を絞りこむことにより、疑問文生成器に余計な処理を実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。例えば、特徴的な表現が1つ以下の文章を抽出するようにした場合には、図2のコメントs3のような冗長な文章を排除し、よりシンプルで疑問文に変換しやすい文章を抽出することができるので、疑問文の精度を効果的に高めることができる。
また、抽出される文章の中に、同じ表現を含む文章の数が所定の範囲に収まるように、少なくとも1つの文章を抽出することで、互いに似た多数の文章が疑問文生成器に入力され、互いに似た多数の疑問文が出力されるといったことを防止することができる。これにより、互いに似た多数の疑問文を生成するといった余計な処理を疑問文生成器に実行させず、処理負荷を効果的に軽減し、疑問文生成器から出力される疑問文を減らし、メモリ消費量を効果的に抑制することができる。
また、抽出される文章の各々が、複数の文章に含まれる何れかの文であり、1つ1つの文を抽出の単位とすることで、1つの文章の中に複数の文が含まれていたとしても、疑問文を生成しやすい文単位で疑問文生成器に入力することができ、疑問文の精度を効果的に高めることができる。
[6.変形例]
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
例えば、実施形態では、文章の一例としてコンテンツに対するコメントを説明したが、文章は、評価対象のレビューであってもよい。この場合、評価対象は、商品、サービス、又はコンテンツである。レビューは、ユーザの主観的な感想であり、口コミと呼ばれることもある。レビューは、評価対象を利用又は購入したユーザにより入力されてもよいし、購入を検討しているユーザにより入力されてもよい。
なお、商品は、インターネット上の店舗又は現実の店舗で取り扱われる有体物に限られず、旅行商品や金融商品であってもよいし、アプリケーションや楽曲などのデータであってもよい。サービスは、任意のサービスであってよく、例えば、宿泊施設や飲食物などの提供サービス、保険サービス、又は金融サービスであってもよい。コンテンツは、任意のコンテンツであってよく、例えば、ウェブサイトの記事、SNSや掲示板への投稿、動画、楽曲、又はゲームなどのアプリケーションであってもよい。
本変形例では、文章データベースには、商品などに対するユーザのレビューが格納される。本変形例では、辞書データベースに格納される特徴的な表現は、評価対象の特徴を示し、例えば、品質、性能、味、香り、雰囲気、又は美観などを示す語句である。疑問文生成器が生成する疑問文は、レビューの入力をユーザに促すための文章となる。
また、実施形態と同様に、評価対象は、複数の属性の少なくとも1つに属しているものとするが、特に属性が存在しなくてもよい。本変形例では、文章取得部101は、属性ごとに、複数のレビューを取得する。特定部102は、属性ごとに、少なくとも1つの特徴的な表現を特定する。抽出部103は、属性ごとに、複数のレビューの中から、少なくとも1つの文章を抽出する。これらの処理は、実施形態で文章又はコメントと記載した部分をレビューと読み替えることにより実現されるようにすればよい。
本変形例によれば、評価対象のレビューに含まれる評価対象の特徴を特定し、複数のレビューの中から、疑問文生成器に入力されるレビューを抽出することで、レビューを促すための疑問文を生成する精度を高めることができる。これにより、レビューの入力数を増加させ、有用な情報を提供することができる。
また、評価対象の属性ごとに、複数の文章の中から少なくとも1つの文章を抽出することで、属性に応じた精度の高い疑問文を生成することができる。例えば、商品のカテゴリやジャンルに応じた疑問文を生成し、ユーザにレビューを入力させる動機付けをより強く与えることができる。
なお、実施形態では、疑問文を生成する場面に文章抽出システム1を適用する場合を説明したが、文章抽出システム1は、疑問文生成以外の場面で利用してもよい。即ち、上記説明した構成のうち、疑問文を生成する構成は省略してもよい。例えば、文章抽出システム1は、要約文を生成する場面に利用し、実施形態で説明したILP文抽出を利用して、要約文を生成してもよい。この場合、文章抽出システム1は、要約書に含まれる特徴的な表現の数が多くなるように、少なくとも1つの文章を抽出して要約書を生成してもよい。
また例えば、文章抽出システム1は、複数の特徴的な表現を所定の条件のもとで絞り込んだうえで、要約書を構成する文章を抽出してもよい。また例えば、文章抽出システム1は、数式5以降の制約式を省略し、数式4が示す評価関数だけを利用して要約文を生成してもよい。この場合、文章抽出システム1は、生起確率に基づいて、要約文を構成する文章を抽出してもよいし、係り受け距離に基づいて、要約文を構成する文章を抽出してもよい。
また例えば、文章抽出システム1は、数式5が示す制約式だけを考慮して要約文を生成してもよい。この場合、文章抽出システム1は、文章中に含まれる評価視点aの数と評価表現eの数とが一致する文章を、要約文を構成する文章として抽出してもよい。また例えば、数式6又は数式7が示す制約式だけを考慮して要約文を生成してもよい。この場合、文章抽出システム1は、評価視点aが1つ以下となる文章を、要約文を構成する文章として抽出してもよいし、評価表現eが1つ以下となる文章を、要約文を構成する文章として抽出してもよい。
要約文を生成する場面以外にも、コメントやレビューの集計を行う場面に文章抽出システム1を利用してもよいし、翻訳器に入力する入力文を抽出する場面に文章抽出システム1を利用してもよい。また例えば、Q&A又はFAQを生成するために文章抽出システム1が利用されてもよい。また例えば、文章抽出システム1は、チャットボットによる会話の内容を生成するために文章を変換してもよいし、試験問題の作成をするために文章を変換してもよい。例えば、チャットボットに利用する場合には、文章抽出システム1は、チャットボットの発言内容を示す疑問文を生成する。また例えば、試験問題の作成に利用する場合には、文章抽出システム1は、試験問題の解答に基づいて問題文を生成する。
また例えば、疑問文を平叙文に変換する変換器に入力する文章を抽出する場面、平叙文を命令文に変換する変換器に入力する文章を抽出する場面、命令文を平叙文に変換する変換器に入力する文章を抽出する場面、平叙文を感嘆文に変換する変換器に入力する文章を抽出する場面、又は、感嘆文を平叙文に変換する変換器に入力する文章を抽出する場面に利用してもよい。他にも例えば、文章抽出システム1は、ある地方で使用される方言の文章を、同一言語の(同一の国内での)他の地方で使用される方言の文章に変換する変換器に入力する文章を抽出する場面に利用してもよい。
また例えば、各機能がサーバ10で実現される場合を説明したが、複数のコンピュータによって機能が分担されてもよい。例えば、サーバ10及びユーザ端末20の各々で機能が分担されてもよいし、複数のサーバコンピュータで機能が分担されてもよい。この場合、ネットワークNを介して処理結果が送受信されることで、機能が分担されるようにすればよい。また例えば、データ記憶部100に記憶されるものとして説明したデータは、サーバ10以外のコンピュータに記憶されていてもよい。
1 文章抽出システム、N ネットワーク、10 サーバ、11,21 制御部、12,22 記憶部、13,23 通信部、20 ユーザ端末、24 操作部、25 表示部、100 データ記憶部、101 文章取得部、102 特定部、103 抽出部、104 入力部、105 疑問文取得部、106 疑問文出力部、DB1 文章データベース、DB2 辞書データベース、DB3 疑問文データベース。

Claims (16)

  1. 複数の文章を取得する文章取得手段と、
    前記複数の文書の中に、辞書データベースに格納された特徴的な表現が含まれているか否かを判定し、前記複数の文章に含まれる、少なくとも1つの特徴的な表現を特定する特定手段と、
    前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含む少なくとも1つの文を、入力文から疑問文を生成する疑問文生成器に入力される少なくとも1つの文として、抽出する抽出手段と、
    実現する少なくとも1つのプロセッサを含むことを特徴とする文抽出システム。
  2. 前記疑問文生成器は、前記入力文から計算される特徴量に基づいて、前記疑問文を生成する、
    ことを特徴とする請求項1に記載の文抽出システム。
  3. 前記文抽出システムは、
    前記疑問文生成器を記憶する記憶手段と、
    前記少なくとも1つの文を前記疑問文生成器に入力する入力手段と、
    前記疑問文生成器により生成された少なくとも1つの疑問文を取得する疑問文取得手段と、
    を更に含むことを特徴とする請求項1又は2に記載の文抽出システム。
  4. 前記特定手段は、前記複数の文章に含まれる、複数の特徴的な表現を特定し、
    前記抽出手段は、抽出される文全体に含まれる特徴的な表現が多くなるように、前記少なくとも1つの文を抽出する、
    ことを特徴とする請求項1〜3の何れかに記載の文抽出システム。
  5. 前記特定手段は、前記複数の文章に含まれる、複数の特徴的な表現を特定し、
    前記抽出手段は、所定の条件に基づいて、前記複数の特徴的な表現の中から、文の抽出に使用される少なくとも1つの特徴的な表現を決定し、前記決定された少なくとも1つの特徴的な表現を含む、前記少なくとも1つの文を抽出する、
    ことを特徴とする請求項1〜の何れかに記載の文抽出システム。
  6. 前記抽出手段は、抽出される文の分量が所定の範囲に収まるように、前記少なくとも1つの文を抽出する、
    ことを特徴とする請求項1〜の何れかに記載の文抽出システム。
  7. 前記抽出手段は、前記少なくとも1つの特徴的な表現の生起確率を取得し、前記生起確率に基づいて、前記少なくとも1つの文を抽出する、
    ことを特徴とする請求項1〜の何れかに記載の文抽出システム。
  8. 前記抽出手段は、前記少なくとも1つの特徴的な表現と、当該表現と係り受け関係にある係り受け語と、の距離である係り受け距離を取得し、前記係り受け距離に基づいて、前記少なくとも1つの文を抽出する、
    ことを特徴とする請求項1〜の何れかに記載の文抽出システム。
  9. 前記抽出手段は、前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含み、かつ、当該表現の数と、当該表現と係り受け関係にある係り受け語の数とが一致する少なくとも1つの文を抽出する、
    ことを特徴とする請求項1〜の何れかに記載の文抽出システム。
  10. 前記抽出手段は、前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含み、かつ、当該表現と係り受け関係にある係り受けの語の数が所定の範囲に収まる少なくとも1つの文を抽出する、
    ことを特徴とする請求項1〜の何れかに記載の文抽出システム。
  11. 前記抽出手段は、前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含み、かつ、当該表現の数が所定の範囲に収まる少なくとも1つの文を抽出する、
    ことを特徴とする請求項1〜10の何れかに記載の文抽出システム。
  12. 前記抽出手段は、抽出される文章の中に、同じ表現を含む文の数が所定の範囲に収まるように、前記少なくとも1つの文を抽出する、
    ことを特徴とする請求項1〜1の何れかに記載の文抽出システム。
  13. 前記複数の文章の各々は、評価対象のレビューであり、
    前記少なくとも1つの特徴的な表現は、前記評価対象の特徴を示し、
    前記疑問文は、レビューの入力をユーザに促すための文章である、
    ことを特徴とする請求項1〜1の何れかに記載の文抽出システム。
  14. 前記評価対象は、複数の属性の少なくとも1つに属し、
    前記文章取得手段は、前記属性ごとに、複数のレビューを取得し、
    前記特定手段は、前記属性ごとに、前記少なくとも1つの特徴的な表現を特定し、
    前記抽出手段は、前記属性ごとに、前記複数のレビューの中から、前記少なくとも1つのレビューを抽出する、
    ことを特徴とする請求項1に記載の文抽出システム。
  15. コンピュータに含まれる少なくとも1つのプロセッサが、
    複数の文章を取得する文章取得ステップと、
    前記複数の文書の中に、辞書データベースに格納された特徴的な表現が含まれているか否かを判定し、前記複数の文章に含まれる、少なくとも1つの特徴的な表現を特定する特定ステップと、
    前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含む少なくとも1つの文を、入力文から疑問文を生成する疑問文生成器に入力される少なくとも1つの文として、抽出する抽出ステップと、
    を実行することを特徴とする文抽出方法。
  16. 複数の文章を取得する文章取得手段、
    前記複数の文書の中に、辞書データベースに格納された特徴的な表現が含まれているか否かを判定し、前記複数の文章に含まれる、少なくとも1つの特徴的な表現を特定する特定手段、
    前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含む少なくとも1つの文を、入力文から疑問文を生成する疑問文生成器に入力される少なくとも1つの文として、抽出する抽出手段、
    として、少なくとも1つのプロセッサを含むコンピュータを機能させるためのプログラム。
JP2019183761A 2019-03-01 2019-10-04 文抽出システム、文抽出方法、及びプログラム Active JP6757840B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/289664 2019-03-01
US16/289,664 US11526674B2 (en) 2019-03-01 2019-03-01 Sentence extraction system, sentence extraction method, and information storage medium

Publications (2)

Publication Number Publication Date
JP2020140692A JP2020140692A (ja) 2020-09-03
JP6757840B2 true JP6757840B2 (ja) 2020-09-23

Family

ID=72236698

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019183761A Active JP6757840B2 (ja) 2019-03-01 2019-10-04 文抽出システム、文抽出方法、及びプログラム

Country Status (2)

Country Link
US (1) US11526674B2 (ja)
JP (1) JP6757840B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021007088A1 (en) * 2019-07-05 2021-01-14 Elsevier, Inc. Systems and methods to extract the context of scientific measurements using targeted question answering
US11741371B2 (en) * 2020-03-20 2023-08-29 International Business Machines Corporation Automatically generating diverse text
CN113297354A (zh) * 2021-06-16 2021-08-24 深圳前海微众银行股份有限公司 文本匹配方法、装置、设备及存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002103562A1 (en) * 2001-06-19 2002-12-27 Whoi-Yul Kim Method of extracting shape variation descriptor for retrieving image sequence
JP3962382B2 (ja) * 2004-02-20 2007-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現抽出装置、表現抽出方法、プログラム及び記録媒体
JP4459267B2 (ja) * 2005-02-28 2010-04-28 パイオニア株式会社 辞書データ生成装置及び電子機器
JP5212204B2 (ja) * 2009-03-19 2013-06-19 トヨタ自動車株式会社 応答生成装置及びプログラム
WO2011078194A1 (ja) * 2009-12-25 2011-06-30 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法および記録媒体
JP6233650B2 (ja) * 2014-05-20 2017-11-22 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
JP2016001242A (ja) * 2014-06-11 2016-01-07 日本電信電話株式会社 質問文生成方法、装置、及びプログラム
KR102247533B1 (ko) * 2014-07-30 2021-05-03 삼성전자주식회사 음성 인식 장치 및 그 제어 방법
EP3088165B1 (en) 2015-02-25 2019-08-28 Technology Research Association For Future Additive Manufacturing Optical processing head, optical processing device, and optical processing method
JP6381775B2 (ja) * 2015-02-25 2018-08-29 株式会社日立製作所 情報処理システム及び情報処理方法
WO2016147330A1 (ja) * 2015-03-18 2016-09-22 株式会社日立製作所 テキスト処理方法、及びテキスト処理システム
JP2017027233A (ja) 2015-07-17 2017-02-02 日本電信電話株式会社 質問文生成装置、方法、及びプログラム
US10387570B2 (en) * 2015-08-27 2019-08-20 Lenovo (Singapore) Pte Ltd Enhanced e-reader experience
JP6819990B2 (ja) * 2016-08-16 2021-01-27 国立研究開発法人情報通信研究機構 対話システム及びそのためのコンピュータプログラム
US20210286949A1 (en) * 2017-04-06 2021-09-16 Ntt Docomo, Inc. Dialogue system
US9865260B1 (en) * 2017-05-03 2018-01-09 Google Llc Proactive incorporation of unsolicited content into human-to-computer dialogs
WO2019058572A1 (ja) * 2017-09-20 2019-03-28 シャープ株式会社 空気清浄機
US10896457B2 (en) * 2017-12-12 2021-01-19 Amazon Technologies, Inc. Synchronized audiovisual responses to user requests
JP7047380B2 (ja) * 2017-12-28 2022-04-05 富士通株式会社 生成プログラム、生成方法及び情報処理装置
JP2019133229A (ja) * 2018-01-29 2019-08-08 国立研究開発法人情報通信研究機構 質問応答システムの訓練データの作成方法及び質問応答システムの訓練方法
US20190355352A1 (en) * 2018-05-18 2019-11-21 Honda Motor Co., Ltd. Voice and conversation recognition system
KR102076548B1 (ko) * 2018-07-30 2020-02-12 주식회사 한글과컴퓨터 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법
US11086911B2 (en) * 2018-07-31 2021-08-10 Wipro Limited Method and system for generating question variations to user input
CN109460450B (zh) * 2018-09-27 2021-07-09 清华大学 对话状态跟踪方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
US11526674B2 (en) 2022-12-13
US20200279018A1 (en) 2020-09-03
JP2020140692A (ja) 2020-09-03

Similar Documents

Publication Publication Date Title
Yeomans et al. The politeness Package: Detecting Politeness in Natural Language.
US11281861B2 (en) Method of calculating relevancy, apparatus for calculating relevancy, data query apparatus, and non-transitory computer-readable storage medium
CA3009758A1 (en) Systems and methods for suggesting emoji
US20160098480A1 (en) Author moderated sentiment classification method and system
JP6757840B2 (ja) 文抽出システム、文抽出方法、及びプログラム
US11409964B2 (en) Method, apparatus, device and storage medium for evaluating quality of answer
US10496751B2 (en) Avoiding sentiment model overfitting in a machine language model
US10922492B2 (en) Content optimization for audiences
CN111414561B (zh) 用于呈现信息的方法和装置
CN111339284A (zh) 产品智能匹配方法、装置、设备及可读存储介质
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
JP7096172B2 (ja) キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法
JP6626917B2 (ja) 英語の音節計算法に基づいた可読性評価方法及びシステム
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Saranya et al. A Machine Learning-Based Technique with IntelligentWordNet Lemmatize for Twitter Sentiment Analysis.
Awwad et al. Performance comparison of different lexicons for sentiment analysis in Arabic
CN107797981B (zh) 一种目标文本识别方法及装置
Brown et al. How the Word Adjacency Network (WAN) works
Nama et al. Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
CN112487303B (zh) 一种基于社交网络用户属性的主题推荐方法
CN114969371A (zh) 一种联合知识图谱的热度排序方法及装置
Zhang News text classification algorithm based on machine learning technology
JP7351502B2 (ja) 変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191004

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191004

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191015

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200831

R150 Certificate of patent or registration of utility model

Ref document number: 6757840

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250