JP7492166B2 - 意見集約装置、意見集約方法、およびプログラム - Google Patents

意見集約装置、意見集約方法、およびプログラム Download PDF

Info

Publication number
JP7492166B2
JP7492166B2 JP2022569400A JP2022569400A JP7492166B2 JP 7492166 B2 JP7492166 B2 JP 7492166B2 JP 2022569400 A JP2022569400 A JP 2022569400A JP 2022569400 A JP2022569400 A JP 2022569400A JP 7492166 B2 JP7492166 B2 JP 7492166B2
Authority
JP
Japan
Prior art keywords
text data
sentence
score
chat
aggregation device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022569400A
Other languages
English (en)
Other versions
JPWO2022130541A1 (ja
Inventor
司 吉田
淳史 大塚
済央 野本
哲 小橋川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022130541A1 publication Critical patent/JPWO2022130541A1/ja
Application granted granted Critical
Publication of JP7492166B2 publication Critical patent/JP7492166B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Description

本開示は、意見集約装置、意見集約方法、およびプログラムに関する。
近年、インターネット通信の発展によりライブ配信が盛んであり、オンライン形式のプレゼンもしばしば行われている。このような場では、チャット機能を用いて配信に関してコメントが集められる。寄せられた意見又は疑問などに対して、配信者がその場で返答することができれば、視聴者の理解又は満足度の向上が見込める。さらに、活発な意見交換にも繋がり、特にプレゼンでは、合意形成に役立つことが期待できる。しかし、コメントが大量に集まる場合、配信者が配信中にそれら全てを確認することは現実的に不可能であり、チャット文の中から類似した意見又は疑問をまとめ、整理する技術が必要となる。
例えば、特許文献1には、指定テキスト集合の傾向変化に高速に適応しながら、長期的な傾向に基づいた高い分類精度も実現するマイクロブログテキスト分類技術が開示されている。
特開2012-221430号公報
しかしながら、従来の技術では、関連するテキストの検索によりトピック分類は達成される一方で、同意見又は同意味という意味的情報を捉えた分類を行うことができず、類似した意見又は疑問を整理することが困難であるという問題があった。また、テキストを一度、特徴量ベクトルに変換するため、分類結果を解釈しづらく、さらに、途中結果を見てエラー解析などを行うことが困難であるという問題もあった。
かかる事情に鑑みてなされた本開示の目的は、意味的情報を捉えた分類を行うことが可能な意見集約装置、意見集約方法、およびプログラムを提供することにある。
一実施形態に係る意見集約装置は、入力文に対して意味的情報を捉えた分類を行う意見集約装置であって、入力文が平叙文であるか疑問文であるかを判定する第1判定部と、前記入力文が前記平叙文である場合、前記入力文を疑問文化した第1テキストデータを生成する第1生成部と、前記入力文が前記疑問文である場合、前記入力文に簡易回答した第2テキストデータを生成する第2生成部と、複数のチャットテキストデータを含むチャットテキストデータベースを記憶する記憶部と、前記第1テキストデータと前記チャットテキストデータとの文章連続性を示す第1スコア、又は、前記チャットテキストデータと前記第2テキストデータとの文章連続性を示す第2スコアを算出する算出部と、前記第1スコア又は前記第2スコアが閾値以上である場合、該第1スコア又は該第2スコアを有する前記チャットテキストデータを出力する第2判定部と、を備えることを特徴とする。
一実施形態に係る意見集約方法は、入力文に対して意味的情報を捉えた分類を行う意見集約装置による意見集約方法であって、前記意見集約装置が、入力文が平叙文であるか疑問文であるかを判定するステップと、前記入力文が前記平叙文である場合、前記入力文を疑問文化した第1テキストデータを生成するステップと、前記入力文が前記疑問文である場合、前記入力文に簡易回答した第2テキストデータを生成するステップと、複数のチャットテキストデータを含むチャットテキストデータベースを記憶するステップと、前記第1テキストデータと前記チャットテキストデータとの文章連続性を示す第1スコア、又は、前記チャットテキストデータと前記第2テキストデータとの文章連続性を示す第2スコアを算出するステップと、前記第1スコア又は前記第2スコアが閾値以上である場合、該第1スコア又は該第2スコアを有する前記チャットテキストデータを出力するステップと、を実行することを特徴とする。
一実施形態に係るプログラムは、コンピュータを、上記意見集約装置として機能させることを特徴とする。
本開示によれば、意味的情報を捉えた分類を行うことが可能な意見集約装置、意見集約方法、およびプログラムを提供することが可能となる。
第1実施形態に係る意見集約装置の構成の一例を示す図である。 第1実施形態に係る各データの一例を示す図である。 第1実施形態に係る各データの一例を示す図である。 第1実施形態に係る意見集約方法の一例を示すフローチャートである。 第2実施形態に係る意見集約装置の構成の一例を示す図である。 第2実施形態に係る各データの一例を示す図である。 第2実施形態に係る意見集約方法の一例を示すフローチャートである。
以下、本発明を実施するための形態について、図面を参照しながら詳細に説明する。
〔第1実施形態〕
<意見集約装置の構成>
図1乃至図3を参照して、第1実施形態に係る意見集約装置の構成の一例について説明する。
意見集約装置100は、制御部110と、記憶部120と、入力部130と、出力部140と、を備える。
制御部110は、専用のハードウェアによって構成されてもよいし、汎用のプロセッサ又は特定の処理に特化したプロセッサによって構成されてもよい。制御部110は、平叙文/疑問文判定部(第1判定部)10と、疑問文生成部(第1生成部)20と、回答文生成部(第2生成部)30と、文章連続性スコア算出部(算出部)40と、閾値判定部(第2判定部)50と、を備える。
記憶部120は、1つ以上のメモリを含み、例えば、半導体メモリ、磁気メモリ、光メモリなどを含んでよい。記憶部120に含まれる各メモリは、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してよい。各メモリは、必ずしも意見集約装置100がその内部に備える必要はなく、意見集約装置100の外部に備える構成としてもよい。記憶部120は、意見集約装置100の動作に用いられる任意の情報を記憶する。記憶部120は、例えば、複数のチャットテキストデータを含むチャットテキストデータベース121を記憶する。チャットテキストデータとしては、例えば、図2に示すように、「赤色のモデルいいね」、「赤は微妙」、「赤はいいですね」、「色が豊富なのがいいと思いました」、「もう少し小さいといいと思いました」などが挙げられる。チャットテキストデータとしては、例えば、図3に示すように、「インジェクションとは何ですか」、「インジェクションがわからない」、「安定供給が必要そうですね」、「もう少し小さいといいと思いました」などが挙げられる。この他にも、記憶部120は、例えば、各種のプログラム又はデータなどを記憶する。
入力部130は、各種情報の入力を受け付ける。入力部130は、ユーザによる所定の操作が可能であればどのようなデバイスでもよく、例えば、マイク、タッチパネル、キーボード、マウスなどである。例えば、ユーザが、入力部130を用いて所定の操作を行うことで、入力文が制御部110に入力される。入力文としては、例えば、図2に示すように、「赤色のモデルが好みです(平叙文)」などが挙げられる。入力文としては、例えば、図3に示すように、「インジェクションって何?(疑問文)」などが挙げられる。入力部130は、意見集約装置100の外部に設けられていてもよいし、意見集約装置100と一体化されていてもよい。
出力部140は、各種情報を出力する。出力部140は、例えば、スピーカー、液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイなどである。出力部140は、例えば、入力文に類似する類似文を出力する。入力文に類似する類似文としては、例えば、図2に示すように、「赤色のモデルが好みです」という入力文に対して、「赤色のモデルいいね」、「赤はいいですね」などが挙げられる。入力文に類似する類似文としては、例えば、図3に示すように、「インジェクションって何?」という入力文に対して、「インジェクションとは何ですか」、「インジェクションがわからない」などが挙げられる。出力部140は、意見集約装置100の外部に設けられていてもよいし、意見集約装置100と一体化されていてもよい。
平叙文/疑問文判定部10は、入力文が、平叙文であるか疑問文であるかを判定する。平叙文/疑問文判定部10は、入力文が平叙文である場合、入力文が平叙文であるという判定結果を、疑問文生成部20へ出力する。平叙文/疑問文判定部10は、入力文が疑問文である場合、入力文が疑問文であるという判定結果を、回答文生成部30へ出力する。
疑問文生成部20は、平叙文/疑問文判定部10から入力された判定結果に基づいて、入力文を疑問文化し、入力文を疑問文化したテキストデータである第1テキストデータを生成する。疑問文生成部20は、第1テキストデータを、文章連続性スコア算出部40へ出力する。第1テキストデータとしては、例えば、図2に示すように、「赤色のモデルは好きですか?」、「何色のモデルが好きですか?」などが挙げられる。疑問文生成部20は、1つの入力文に対して、単数の第1テキストデータを生成してもよいし、複数の第1テキストデータを生成してもよい。
疑問文生成部20が第1テキストデータを生成する技術は、特に限定されるものではないが、例えば、質問自動生成技術を用いてよい。質問自動生成技術の詳細については、例えば、下記の文献を参照することができる。
佐藤紗都、伍井啓恭、奥村学、「製品マニュアル文からの質問自動生成」、人工知能学会全国大会論文集、第32回全国大会(2018)、一般社団法人、人工知能学会、2018
回答文生成部30は、平叙文/疑問文判定部10から入力された判定結果に基づいて、入力文に簡易回答し、入力文に簡易回答したテキストデータである第2テキストデータを生成する。回答文生成部30は、第2テキストデータを、文章連続性スコア算出部40へ出力する。第2テキストデータとしては、例えば、図3に示すように、「インジェクションは燃料供給装置のことです」などが挙げられる。回答文生成部30は、1つの入力文に対して、単数の第2テキストデータを生成してもよいし、複数の第2テキストデータを生成してもよい。
回答文生成部30が第2テキストデータを生成する技術は、特に限定されるものではないが、例えば、FAQ検索システムを用いて、入力文に対する適当な回答を検索し、適当な回答を要約して簡易回答文として使用してよい。この技術の詳細については、例えば、特開2018-180938号公報、特開2018-147102号公報などを参照することができる。
文章連続性スコア算出部40は、疑問文生成部20から入力された第1テキストデータと、チャットテキストデータベース121から抽出されたチャットテキストデータ(例えば、「赤色のモデルいいね」、「赤は微妙」、「赤はいいですね」、「色が豊富なのがいいと思いました」、「もう少し小さいといいと思いました」など)と、の文章連続性を示す第1スコアを算出する。文章連続性スコア算出部40は、算出した第1スコアを、閾値判定部50へ出力する。
同様に、文章連続性スコア算出部40は、チャットテキストデータベース121から抽出されたチャットテキストデータ(例えば、「インジェクションとは何ですか」、「インジェクションがわからない」、「安定供給が必要そうですね」、「もう少し小さいといいと思いました」など)と、回答文生成部30から入力された第2テキストデータと、の文章連続性を示す第2スコアを算出する。文章連続性スコア算出部40は、算出した第2スコアを、閾値判定部50へ出力する。
文章連続性スコア算出部40が第1スコア又は第2スコアを算出する技術は、特に限定されるものではないが、例えば、自然言語処理の学習モデルの一つであるNext Sentence Predictionの出力値を、文章連続性を示すスコアとして用いてよい。この技術の詳細については、例えば、下記の文献を参照することができる。
Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
例えば、文章連続性スコア算出部40は、1つ目のテキストデータ:「今日の天気は晴れでしょう」と2つ目のテキストデータ:「明日の天気は曇りでしょう」との文章連続性を示すスコアを、「8.5(True)」と算出する。該スコアは、「今日の天気は晴れでしょう」、「明日の天気は曇りでしょう」という2つの文章の連続性が高いことを示す。
例えば、文章連続性スコア算出部40は、1つ目のテキストデータ:「今日の天気は晴れでしょう」と2つ目のテキストデータ:「確率統計は重要な科目です」との文章連続性を示すスコアを、「-5.4(False)」と算出する。該スコアは、「今日の天気は晴れでしょう」、「確率統計は重要な科目です」という2つの文章の連続性が低いことを示す。
なお、文章連続性を示すスコアは、-∞から+∞までの範囲で設定可能である。文章連続性スコア算出部40は、例えば、文章連続性を示すスコアの値が正である場合、真(True)を出力する。文章連続性スコア算出部40は、例えば、文章連続性を示すスコアの値が負である場合、偽(False)を出力する。
閾値判定部50は、文章連続性スコア算出部40から入力された第1スコア又は第2スコアに基づいて、スコア順に、複数のチャットテキストデータをランク付けする。例えば、閾値判定部50は、図2に示すように、第1テキストデータ:「赤色のモデルは好きですか?」に対する複数のチャットテキストデータを、「9.2:赤色のモデルいいね」、「8.8:赤は微妙」、「8.5:赤はいいですね」、「1.9:色が豊富なのがいいと思いました」、「-5.1:もう少し小さいといいと思いました」・・・のようにランク付けする。例えば、閾値判定部50は、図2に示すように、第1テキストデータ:「何色のモデルが好きですか?」に対する複数のチャットテキストデータを、「8.7:赤色のモデルいいね」、「6.5:赤はいいですね」、「0.3:赤は微妙」、「-2.0:色が豊富なのがいいと思いました」、「-6.7:もう少し小さいといいと思いました」・・・のようにランク付けする。例えば、閾値判定部50は、図3に示すように、第2テキストデータ:「インジェクションは燃料供給装置のことです」に対する複数のチャットテキストデータを、「8.8:インジェクションとは何ですか」、「8.5:インジェクションがわからない」、「0.1:安定供給が必要そうですね」、「-5.1:もう少し小さいといいと思いました」・・・のようにランク付けする。
そして、閾値判定部50は、第1スコアが閾値以上であるか否かを判定する。閾値判定部50は、第1スコアが閾値以上である場合、該第1スコアを有するチャットテキストデータを出力部140へ出力し、第1スコアが閾値より小さい場合、該第1スコアを有するチャットテキストデータを出力部140へ出力しない。
同様に、閾値判定部50は、第2スコアが閾値以上であるか否かを判定する。閾値判定部50は、第2スコアが閾値以上である場合、該第2スコアを有するチャットテキストデータを出力部140へ出力し、第2スコアが閾値より小さい場合、該第2スコアを有するチャットテキストデータを出力部140へ出力しない。
なお、閾値は、その値が特に限定されるものではなく、意見集約装置100により任意の値に設定されてよい。
例えば、第1テキストデータが単数である場合、閾値判定部50は、該第1テキストデータに対して、単数又は複数のチャットテキストデータにおける第1スコアが閾値以上であるか否かを判定する。そして、閾値判定部50は、第1スコアが閾値以上である場合、該第1スコアを有するチャットテキストデータを出力部140へ出力し、第1スコアが閾値より小さい場合、該第1スコアを有するチャットテキストデータを出力部140へ出力しない。
同様に、例えば、図3に示すように、第2テキストデータが単数である場合、閾値判定部50は、該第2テキストデータ(例えば、「インジェクションは燃料供給装置のことです」)に対して、単数又は複数のチャットテキストデータ(例えば、「インジェクションとは何ですか」、「インジェクションがわからない」、「安定供給が必要そうですね」、「もう少し小さいといいと思いました」)における第2スコアが閾値(例えば、5.0)以上であるか否かを判定する。そして、閾値判定部50は、第2スコアが閾値以上である場合、該第2スコアを有するチャットテキストデータ(例えば、「インジェクションとは何ですか」、「インジェクションがわからない」)を出力部140へ出力し、第2スコアが閾値より小さい場合、該第2スコアを有するチャットテキストデータ(例えば、「安定供給が必要そうですね」、「もう少し小さいといいと思いました」)を出力部140へ出力しない。
例えば、図2に示すように、第1テキストデータが複数である場合、閾値判定部50は、全ての第1テキストデータ(例えば、「赤色のモデルは好きですか?」、「何色のモデルが好きですか?」)に対して、単数又は複数のチャットテキストデータ(例えば、「赤色のモデルいいね」、「赤は微妙」、「赤はいいですね」、「色が豊富なのがいいと思いました」、「もう少し小さいといいと思いました」)における第1スコアが閾値(例えば、5.0)以上であるか否かを判定する。そして、閾値判定部50は、全ての第1テキストデータに対して、第1スコアが閾値以上となるチャットテキストデータ(例えば、「赤色のモデルいいね」、「赤はいいですね」)を出力部140へ出力し、全ての第1テキストデータに対して、第1スコアが閾値以上とならないチャットテキストデータ(例えば、「赤は微妙」、「色が豊富なのがいいと思いました」、「もう少し小さいといいと思いました」)を出力部140へ出力しない。
同様に、例えば、第2テキストデータが複数である場合、閾値判定部50は、全ての第2テキストデータに対して、第2スコアが閾値以上であるか否かを判定する。そして、閾値判定部50は、全ての第2テキストデータに対して、第2スコアが閾値以上となるチャットテキストデータを出力部140へ出力し、全ての第2テキストデータに対して、第2スコアが閾値以上とならないチャットテキストデータを出力部140へ出力しない。
第1実施形態に係る意見集約装置100は、入力文が平叙文である場合には、平叙文を疑問化した文に対して文章連続性スコアの高い回答文を抽出し、入力文が疑問文である場合には、疑問文に簡易回答した文に対して文章連続性スコアの高い疑問文を抽出する。これにより、入力文に類似する類似文を出力することができるため、同意見又は同意味という意味的情報を捉えた分類を行うことが可能な意見集約装置100を実現できる。
<意見集約方法>
図4を参照して、第1実施形態に係る意見集約方法の一例について説明する。
ステップ101において、入力文が、意見集約装置100に入力される。入力文としては、例えば、「赤色のモデルが好みです」、「インジェクションって何?」などが挙げられる。
ステップ102において、意見集約装置100は、入力文が、平叙文であるか疑問文であるかを判定する。入力文が、例えば、「赤色のモデルが好みです」というような平叙文である場合(ステップ102→平叙文)、意見集約装置100は、ステップ103の処理を行う。入力文が、例えば、「インジェクションって何?」というような疑問文である場合(ステップ102→疑問文)、意見集約装置100は、ステップ104の処理を行う。
ステップ103において、意見集約装置100は、入力文を疑問文化し、入力文を疑問文化したテキストデータである第1テキストデータを生成する。例えば、意見集約装置100は、「赤色のモデルが好みです」という入力文を疑問文化し、「赤色のモデルは好きですか?」、「何色のモデルが好きですか?」という第1テキストデータを生成する。
ステップ104において、意見集約装置100は、入力文に簡易回答し、入力文に簡易回答したテキストデータである第2テキストデータを生成する。例えば、意見集約装置100は、「インジェクションって何?」という入力文に簡易回答し、「インジェクションは燃料供給装置のことです」という第2テキストデータを生成する。
ステップ105において、意見集約装置100は、文章連続性スコアを算出する。例えば、意見集約装置100は、第1テキストデータと、チャットテキストデータベース121に含まれるチャットテキストデータと、の文章連続性を示す第1スコアを算出する。例えば、意見集約装置100は、チャットテキストデータベース121に含まれるチャットテキストデータと、第2テキストデータと、の文章連続性を示す第2スコアを算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、第1テキストデータ:「赤色のモデルは好きですか?」を用いて、2つ目のテキストデータとして、チャットテキストデータ:「赤色のモデルいいね」を用いて、2つの文章の連続性を示す第1スコアを、「9.2」と算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、第1テキストデータ:「赤色のモデルは好きですか?」を用いて、2つ目のテキストデータとして、チャットテキストデータ:「赤は微妙」を用いて、2つの文章の連続性を示す第1スコアを、「8.8」と算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、第1テキストデータ:「赤色のモデルは好きですか?」を用いて、2つ目のテキストデータとして、チャットテキストデータ:「赤はいいですね」を用いて、2つの文章の連続性を示す第1スコアを、「8.5」と算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、第1テキストデータ:「赤色のモデルは好きですか?」を用いて、2つ目のテキストデータとして、チャットテキストデータ:「色が豊富なのがいいと思いました」を用いて、2つの文章の連続性を示す第1スコアを、「1.9」と算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、第1テキストデータ:「赤色のモデルは好きですか?」を用いて、2つ目のテキストデータとして、チャットテキストデータ:「もう少し小さいといいと思いました」を用いて、2つの文章の連続性を示す第1スコアを、「-5.1」と算出する。
同様に、例えば、意見集約装置100は、1つ目のテキストデータとして、第1テキストデータ:「何色のモデルが好きですか?」を用いて、2つ目のテキストデータとして、チャットテキストデータ:「赤色のモデルいいね」を用いて、2つの文章の連続性を示す第1スコアを、「8.7」と算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、第1テキストデータ:「何色のモデルが好きですか?」を用いて、2つ目のテキストデータとして、チャットテキストデータ:「赤はいいですね」を用いて、2つの文章の連続性を示す第1スコアを、「6.5」と算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、第1テキストデータ:「何色のモデルが好きですか?」を用いて、2つ目のテキストデータとして、チャットテキストデータ:「赤は微妙」を用いて、2つの文章の連続性を示す第1スコアを、「0.3」と算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、第1テキストデータ:「何色のモデルが好きですか?」を用いて、2つ目のテキストデータとして、チャットテキストデータ:「色が豊富なのがいいと思いました」を用いて、2つの文章の連続性を示す第1スコアを、「-2.0」と算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、第1テキストデータ:「何色のモデルが好きですか?」を用いて、2つ目のテキストデータとして、チャットテキストデータ:「もう少し小さいといいと思いました」を用いて、2つの文章の連続性を示す第1スコアを、「-6.7」と算出する。
同様に、例えば、意見集約装置100は、1つ目のテキストデータとして、チャットテキストデータ:「インジェクションとは何ですか」を用いて、2つ目のテキストデータとして、第2テキストデータ:「インジェクションは燃料供給装置のことです」を用いて、2つの文章の連続性を示す第2スコアを、「8.8」と算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、チャットテキストデータ:「インジェクションがわからない」を用いて、2つ目のテキストデータとして、第2テキストデータ:「インジェクションは燃料供給装置のことです」を用いて、2つの文章の連続性を示す第2スコアを、「8.5」と算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、チャットテキストデータ:「安定供給が必要そうですね」を用いて、2つ目のテキストデータとして、第2テキストデータ:「インジェクションは燃料供給装置のことです」を用いて、2つの文章の連続性を示す第2スコアを、「0.1」と算出する。
例えば、意見集約装置100は、1つ目のテキストデータとして、チャットテキストデータ:「もう少し小さいといいと思いました」を用いて、2つ目のテキストデータとして、第2テキストデータ:「インジェクションは燃料供給装置のことです」を用いて、2つの文章の連続性を示す第2スコアを、「-5.1」と算出する。
ステップ106において、意見集約装置100は、第1スコア又は第2スコアに基づいて、スコア順に、複数のチャットテキストデータをランク付けする。
例えば、意見集約装置100は、第1テキストデータ:「赤色のモデルは好きですか?」に対する複数のチャットテキストデータを、「9.2:赤色のモデルいいね」、「8.8:赤は微妙」、「8.5:赤はいいですね」、「1.9:色が豊富なのがいいと思いました」、「-5.1:もう少し小さいといいと思いました」・・・のようにランク付けする。
例えば、意見集約装置100は、第1テキストデータ:「何色のモデルが好きですか?」に対する複数のチャットテキストデータを、「8.7:赤色のモデルいいね」、「6.5:赤はいいですね」、「0.3:赤は微妙」、「-2.0:色が豊富なのがいいと思いました」、「-6.7:もう少し小さいといいと思いました」・・・のようにランク付けする。
例えば、意見集約装置100は、第2テキストデータ:「インジェクションは燃料供給装置のことです」に対する複数のチャットテキストデータを、「8.8:インジェクションとは何ですか」、「8.5:インジェクションがわからない」、「0.1:安定供給が必要そうですね」、「-5.1:もう少し小さいといいと思いました」・・・のようにランク付けする。
そして、意見集約装置100は、第1スコア又は第2スコアが閾値以上であるか否かを判定する。意見集約装置100は、第1スコア又は第2スコアが閾値以上である場合(ステップ106→YES)、ステップ107の処理を行う。意見集約装置100は、第1スコア又は第2スコアが閾値より小さい場合(ステップ106→NO)、処理を終了する。
例えば、第1テキストデータが単数である場合、意見集約装置100は、該第1テキストデータに対するチャットテキストデータの第1スコアが閾値以上であるか否かを判定する。例えば、第1テキストデータが複数である場合、意見集約装置100は、全ての第1テキストデータに対するチャットテキストデータの第1スコアが閾値以上であるか否かを判定する。
具体的には、意見集約装置100は、第1テキストデータ:「赤色のモデルは好きですか?」に対するチャットテキストデータ:「赤色のモデルいいね」の第1スコア「9.2」が閾値以上であり、第1テキストデータ:「何色のモデルが好きですか?」に対するチャットテキストデータ:「赤色のモデルいいね」の第1スコア「8.7」も閾値以上であると判定する。
また、意見集約装置100は、第1テキストデータ:「赤色のモデルは好きですか?」に対するチャットテキストデータ:「赤はいいですね」の第1スコア「8.5」が閾値以上であり、第1テキストデータ:「何色のモデルが好きですか?」に対するチャットテキストデータ:「赤はいいですね」の第1スコア「6.5」も閾値以上であると判定する。
また、意見集約装置100は、第1テキストデータ:「赤色のモデルは好きですか?」に対するチャットテキストデータ:「赤は微妙」の第1スコア「8.5」が閾値以上であり、第1テキストデータ:「何色のモデルが好きですか?」に対するチャットテキストデータ:「赤は微妙」の第1スコア「0.3」が閾値より小さいと判定する。
また、意見集約装置100は、第1テキストデータ:「赤色のモデルは好きですか?」に対するチャットテキストデータ:「色が豊富なのがいいと思いました」の第1スコア「1.9」が閾値より小さく、第1テキストデータ:「何色のモデルが好きですか?」に対するチャットテキストデータ:「色が豊富なのがいいと思いました」の第1スコア「-2.0」も閾値より小さいと判定する。
また、意見集約装置100は、第1テキストデータ:「赤色のモデルは好きですか?」に対するチャットテキストデータ:「もう少し小さいといいと思いました」の第1スコア「-5.1」が閾値より小さく、第1テキストデータ:「何色のモデルが好きですか?」に対するチャットテキストデータ:「もう少し小さいといいと思いました」の第1スコア「-6.7」も閾値より小さいと判定する。
例えば、第2テキストデータが単数である場合、意見集約装置100は、該第2テキストデータに対するチャットテキストデータの第2スコアが閾値以上であるか否かを判定する。例えば、第2テキストデータが複数である場合、意見集約装置100は、全ての第2テキストデータに対するチャットテキストデータの第2スコアが閾値以上であるか否かを判定する。
具体的には、意見集約装置100は、第2テキストデータ:「インジェクションは燃料供給装置のことです」に対するチャットテキストデータ:「インジェクションとは何ですか」の第2スコア「8.8」が閾値以上であると判定する。
また、意見集約装置100は、第2テキストデータ:「インジェクションは燃料供給装置のことです」に対するチャットテキストデータ:「インジェクションがわからない」の第2スコア「8.5」が閾値以上であると判定する。
また、意見集約装置100は、第2テキストデータ:「インジェクションは燃料供給装置のことです」に対するチャットテキストデータ:「安定供給が必要そうですね」の第2スコア「0.1」が閾値より小さいと判定する。
また、意見集約装置100は、第2テキストデータ:「インジェクションは燃料供給装置のことです」に対するチャットテキストデータ:「もう少し小さいといいと思いました」の第2スコア「-5.1」が閾値より小さいと判定する。
ステップ107において、意見集約装置100は、判定結果に基づいて、入力文に類似する類似文を出力する。
例えば、第1テキストデータが複数である場合、意見集約装置100は、全ての第1テキストデータに対するチャットテキストデータの第1スコアが閾値以上となるという判定結果に基づいて、「赤色のモデルいいね」、「赤はいいですね」を、入力文に類似する類似文として出力する。具体的には、意見集約装置100は、第1テキストデータ:「赤色のモデルは好きですか?」に対して、第1スコアが閾値以上となるチャットテキストデータとして、「赤色のモデルいいね」、「赤は微妙」、「赤はいいですね」を上位テキスト群に分類する。また、意見集約装置100は、第1テキストデータ:「何色のモデルが好きですか?」に対して、第1スコアが閾値以上となるチャットテキストデータとして、「赤色のモデルいいね」、「赤はいいですね」を上位テキスト群に分類する。そして、意見集約装置100は、両方の上位テキスト群に共通して含まれるチャットテキストデータ、すなわち、「赤色のモデルいいね」、「赤はいいですね」を出力する。
例えば、第2テキストデータが単数である場合、意見集約装置100は、該第2テキストデータに対するチャットテキストデータの第2スコアが閾値以上であるという判定結果に基づいて、「インジェクションとは何ですか」、「インジェクションがわからない」を、入力文に類似する類似文として出力する。具体的には、意見集約装置100は、第2テキストデータ:「インジェクションは燃料供給装置のことです」に対して、第2スコアが閾値以上となるチャットテキストデータとして、「インジェクションとは何ですか」、「インジェクションがわからない」を上位テキスト群に分類する。そして、意見集約装置100は、該上位テキスト群に含まれる全てのチャットテキストデータ、すなわち、「インジェクションとは何ですか」、「インジェクションがわからない」を出力する。
第1実施形態に係る意見集約方法は、文章連続性スコアに基づいて、類似テキストを分類する。つまり、入力文を変換し、所定の文が、変換された入力文に対して会話文として成立するか否かを文章連続性スコアとして算出し、このスコアにより、入力文と所定の文との同調性又は同様性を測る。平叙文に対しては、その疑問文をとり、その疑問文と所定の文との文章連続性スコアを算出することで、元の平叙文との同調性をスコア化する。疑問文に対しては、その回答文をとり、所定の文とその回答文との文章連続性スコアを算出することで、元の疑問文との同様性をスコア化する。これにより、短い文に対してもテキスト情報のみで意味的情報を捉えた分類を行うことが可能な意見集約方法を実現できる。
また、会話文として成立するか否かを分類基準とするため、分類結果の解釈が容易な意見集約方法を実現できる。
〔第2実施形態〕
<意見集約装置の構成>
図5又は図6を参照して、第2実施形態に係る意見集約装置100Aの構成の一例について説明する。
第2実施形態に係る意見集約装置100Aが、第1実施形態に係る意見集約装置100と異なる点は、第1実施形態に係る意見集約装置100が類似文法テキスト検索部を備えないのに対して、第2実施形態に係る意見集約装置100Aは、類似文法テキスト検索部を備える点である。その他の構成は、同様であるため、重複した説明を省略する場合がある。
意見集約装置100Aは、制御部110Aと、記憶部120と、入力部130と、出力部140と、を備える。制御部110Aは、平叙文/疑問文判定部(第1判定部)10と、疑問文生成部(第1生成部)20と、回答文生成部(第2生成部)30と、文章連続性スコア算出部(算出部)40と、閾値判定部(第2判定部)50と、類似文法テキスト検索部(検索部)60と、を備える。
類似文法テキスト検索部60は、チャットテキストデータベース121から、入力文と文法的に類似するチャットテキストデータを検索する。そして、類似文法テキスト検索部60は、入力文と該チャットテキストデータとの類似度(例えば、距離計算により算出された値)に基づいて、類似度順に、複数のチャットテキストデータをランク付けする。
例えば、類似文法テキスト検索部60は、図6に示すように、入力文:「赤色のモデルが好みです」と文法的に類似する複数のチャットテキストデータを、「0.9:赤色のモデルいいね」、「1.4:赤は微妙」、「1.5:赤はいいですね」、「11.7:色が豊富なのがいいと思いました」、「21.0:もう少し小さいといいと思いました」・・・のようにランク付けする。
そして、類似文法テキスト検索部60は、類似度が閾値以下であるか否かを判定する。類似文法テキスト検索部60は、類似度が閾値以下である場合、該類似度を有するチャットテキストデータを、類似チャットテキストデータとして文章連続性スコア算出部40へ出力し、類似度が閾値より大きい場合、該類似度を有するチャットテキストデータを、類似チャットテキストデータとして文章連続性スコア算出部40へ出力しない。なお、閾値は、その値が特に限定されるものではなく、意見集約装置100Aにより任意の値に設定されてよい。
例えば、類似文法テキスト検索部60は、図6に示すように、類似度が閾値(例えば、5.0)以下である場合、「0.9:赤色のモデルいいね」、「1.4:赤は微妙」、「1.5:赤はいいですね」を、類似チャットテキストデータとして文章連続性スコア算出部40へ出力し、類似度が閾値(例えば、5.0)より大きい場合、「11.7:色が豊富なのがいいと思いました」、「21.0:もう少し小さいといいと思いました」を、類似チャットテキストデータとして文章連続性スコア算出部40へ出力しない。
類似文法テキスト検索部60が、チャットテキストデータベース121から、入力文と文法的に類似するチャットテキストデータを検索する技術は、特に限定されるものではないが、例えば、テキストを自然言語処理のモデルの一つであるBERTにより特徴量ベクトルに変換し、その特徴量ベクトルの差を示すノルム値が所定の閾値より小さいテキストを、類似文法テキストとしての検索結果としてよい。この技術の詳細については、例えば、下記の文献を参照することができる。
Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
文章連続性スコア算出部40は、疑問文生成部20から入力された第1テキストデータと、類似文法テキスト検索部60から入力された類似チャットテキストデータと、の文章連続性を示す第1スコアを算出する。文章連続性スコア算出部40は、算出した第1スコアを、閾値判定部50へ出力する。
同様に、文章連続性スコア算出部40は、類似文法テキスト検索部60から入力された類似チャットテキストデータと、回答文生成部30から入力された第2テキストデータと、の文章連続性を示す第2スコアを算出する。文章連続性スコア算出部40は、算出した第2スコアを、閾値判定部50へ出力する。
閾値判定部50は、文章連続性スコア算出部40から入力された第1スコアに基づいて、スコア順に、複数の類似チャットテキストデータをランク付けする。例えば、閾値判定部50は、図6に示すように、第1テキストデータ:「赤色のモデルは好きですか?」に対する複数の類似チャットテキストデータを、「9.2:赤色のモデルいいね」、「8.8:赤は微妙」、「8.5:赤はいいですね」のようにランク付けする。例えば、閾値判定部50は、図6に示すように、第1テキストデータ:「何色のモデルが好きですか?」に対する複数の類似チャットテキストデータを、「8.7:赤色のモデルいいね」、「6.5:赤はいいですね」、「0.3:赤は微妙」のようにランク付けする。
そして、閾値判定部50は、第1スコアが閾値以上であるか否かを判定する。閾値判定部50は、第1スコアが閾値以上である場合、該第1スコアを有する類似チャットテキストデータを出力部140へ出力し、第1スコアが閾値より小さい場合、該第1スコアを有する類似チャットテキストデータを出力部140へ出力しない。
同様に、閾値判定部50は、第2スコアが閾値以上であるか否かを判定する。閾値判定部50は、第2スコアが閾値以上である場合、該第2スコアを有する類似チャットテキストデータを出力部140へ出力し、第2スコアが閾値より小さい場合、該第2スコアを有する類似チャットテキストデータを出力部140へ出力しない。
例えば、図6に示すように、第1テキストデータが複数である場合、閾値判定部50は、全ての第1テキストデータ(例えば、「赤色のモデルは好きですか?」、「何色のモデルが好きですか?」)に対して、単数又は複数の類似チャットテキストデータ(例えば、「赤色のモデルいいね」、「赤はいいですね」、「赤は微妙」)における第1スコアが閾値(例えば、5.0)以上であるか否かを判定する。そして、閾値判定部50は、全ての第1テキストデータに対して、第1スコアが閾値以上となる類似チャットテキストデータ(例えば、「赤色のモデルいいね」、「赤はいいですね」)を出力部140へ出力し、全ての第1テキストデータに対して、第1スコアが閾値以上とならない類似チャットテキストデータ(例えば、「赤は微妙」)を出力部140へ出力しない。
第2実施形態に係る意見集約装置100Aは、入力文が平叙文である場合には、平叙文を疑問化した文に対して文章連続性スコアの高い回答文を抽出し、入力文が疑問文である場合には、疑問文に簡易回答した文に対して文章連続性スコアの高い疑問文を抽出する。これにより、入力文に類似する類似文を出力することができるため、同意見又は同意味という意味的情報を捉えた分類を行うことが可能な意見集約装置100Aを実現できる。また、文章連続性スコア算出部40が、あらかじめ厳選された類似チャットテキストデータのみを、スコア算出に用いることで、計算コストを抑えつつ、意味的情報を捉えた分類を効率的に行うことが可能な意見集約装置100Aを実現できる。
<意見集約方法>
図7を参照して、第2実施形態に係る意見集約方法の一例について説明する。なお、第1実施形態に係る意見集約方法と同様の処理については、重複した説明を省略する場合がある。
ステップS201において、入力文が、意見集約装置100Aに入力される。入力文としては、例えば、「赤色のモデルが好みです」などが挙げられる。
ステップ202において、意見集約装置100Aは、入力文が、平叙文であるか疑問文であるかを判定する。入力文が、平叙文である場合(ステップ202→平叙文)、意見集約装置100Aは、ステップ204の処理を行う。入力文が、疑問文である場合(ステップ202→疑問文)、意見集約装置100Aは、ステップ205の処理を行う。
ステップ203において、意見集約装置100Aは、チャットテキストデータベース121から、入力文と文法的に類似するチャットテキストデータを検索する。そして、意見集約装置100Aは、入力文と該チャットテキストデータとの類似度が閾値以下であるか否かを判定し、類似度が閾値以下である場合、該類似度を有するチャットテキストデータを、類似チャットテキストデータとする。
例えば、意見集約装置100Aは、検索したチャットテキストデータ:「赤色のモデルいいね」の類似度:「0.9」が閾値以下であると判定し、検索したチャットテキストデータ:「赤色のモデルいいね」を類似チャットテキストデータとする。例えば、意見集約装置100Aは、検索したチャットテキストデータ:「赤は微妙」の類似度:「1.4」が閾値以下であると判定し、検索したチャットテキストデータ:「赤は微妙」を類似チャットテキストデータとする。例えば、意見集約装置100Aは、検索したチャットテキストデータ:「赤はいいですね」の類似度:「1.5」が閾値以下であると判定し、検索したチャットテキストデータ:「赤はいいですね」を類似チャットテキストデータとする。例えば、意見集約装置100Aは、検索したチャットテキストデータ:「色が豊富なのがいいと思いました」の類似度:「11.7」が閾値より大きいと判定し、検索したチャットテキストデータ:「色が豊富なのがいいと思いました」を類似チャットテキストデータとしない。例えば、意見集約装置100Aは、検索したチャットテキストデータ:「もう少し小さいといいと思いました」の類似度:「21.0」が閾値より大きいと判定し、検索したチャットテキストデータ:「もう少し小さいといいと思いました」を類似チャットテキストデータとしない。
ステップ204において、意見集約装置100Aは、入力文を疑問文化し、入力文を疑問文化したテキストデータである第1テキストデータを生成する。
ステップ205において、意見集約装置100Aは、入力文に簡易回答し、入力文に簡易回答したテキストデータである第2テキストデータを生成する。
ステップ206において、意見集約装置100Aは、文章連続性スコアを算出する。例えば、意見集約装置100Aは、第1テキストデータと、類似チャットテキストデータと、の文章連続性を示す第1スコアを算出する。例えば、意見集約装置100Aは、類似チャットテキストデータと、第2テキストデータと、の文章連続性を示す第2スコアを算出する。
例えば、意見集約装置100Aは、1つ目のテキストデータとして、第1テキストデータ:「赤色のモデルは好きですか?」を用いて、2つ目のテキストデータとして、類似チャットテキストデータ:「赤色のモデルいいね」を用いて、2つの文章の連続性を示す第1スコアを、「9.2」と算出する。
例えば、意見集約装置100Aは、1つ目のテキストデータとして、第1テキストデータ:「赤色のモデルは好きですか?」を用いて、2つ目のテキストデータとして、類似チャットテキストデータ:「赤は微妙」を用いて、2つの文章の連続性を示す第1スコアを、「8.8」と算出する。
例えば、意見集約装置100Aは、1つ目のテキストデータとして、第1テキストデータ:「赤色のモデルは好きですか?」を用いて、2つ目のテキストデータとして、類似チャットテキストデータ:「赤はいいですね」を用いて、2つの文章の連続性を示す第1スコアを、「8.5」と算出する。
例えば、意見集約装置100Aは、1つ目のテキストデータとして、第1テキストデータ:「何色のモデルが好きですか?」を用いて、2つ目のテキストデータとして、類似チャットテキストデータ:「赤色のモデルいいね」を用いて、2つの文章の連続性を示す第1スコアを、「8.7」と算出する。
例えば、意見集約装置100Aは、1つ目のテキストデータとして、第1テキストデータ:「何色のモデルが好きですか?」を用いて、2つ目のテキストデータとして、類似チャットテキストデータ:「赤はいいですね」を用いて、2つの文章の連続性を示す第1スコアを、「6.5」と算出する。
例えば、意見集約装置100Aは、1つ目のテキストデータとして、第1テキストデータ:「何色のモデルが好きですか?」を用いて、2つ目のテキストデータとして、類似チャットテキストデータ:「赤は微妙」を用いて、2つの文章の連続性を示す第1スコアを、「0.3」と算出する。
ステップ207において、意見集約装置100Aは、第1スコア又は第2スコアに基づいて、スコア順に、複数の類似チャットテキストデータをランク付けする。
例えば、意見集約装置100Aは、第1テキストデータ:「赤色のモデルは好きですか?」に対する複数の類似チャットテキストデータを、「9.2:赤色のモデルいいね」、「8.8:赤は微妙」、「8.5:赤はいいですね」のようにランク付けする。
例えば、意見集約装置100Aは、第1テキストデータ:「何色のモデルが好きですか?」に対する複数の類似チャットテキストデータを、「8.7:赤色のモデルいいね」、「6.5:赤はいいですね」、「0.3:赤は微妙」のようにランク付けする。
そして、意見集約装置100Aは、第1スコア又は第2スコアが閾値以上であるか否かを判定する。意見集約装置100Aは、第1スコア又は第2スコアが閾値以上である場合(ステップ207→YES)、ステップ208の処理を行う。意見集約装置100Aは、第1スコア又は第2スコアが閾値より小さい場合(ステップ207→NO)、処理を終了する。
例えば、第1テキストデータが単数である場合、意見集約装置100Aは、該第1テキストデータに対する類似チャットテキストデータの第1スコアが閾値以上であるか否かを判定する。例えば、第1テキストデータが複数である場合、意見集約装置100Aは、全ての第1テキストデータに対する類似チャットテキストデータの第1スコアが閾値以上であるか否かを判定する。
例えば、第2テキストデータが単数である場合、意見集約装置100Aは、該第2テキストデータに対する類似チャットテキストデータの第2スコアが閾値以上であるか否かを判定する。例えば、第2テキストデータが複数である場合、意見集約装置100Aは、全ての第2テキストデータに対する類似チャットテキストデータの第2スコアが閾値以上であるか否かを判定する。
具体的には、意見集約装置100Aは、第1テキストデータ:「赤色のモデルは好きですか?」に対する類似チャットテキストデータ:「赤色のモデルいいね」の第1スコア「9.2」が閾値以上であり、第1テキストデータ:「何色のモデルが好きですか?」に対する類似チャットテキストデータ:「赤色のモデルいいね」の第1スコア「8.7」も閾値以上であると判定する。
また、意見集約装置100Aは、第1テキストデータ:「赤色のモデルは好きですか?」に対する類似チャットテキストデータ:「赤はいいですね」の第1スコア「8.5」が閾値以上であり、第1テキストデータ:「何色のモデルが好きですか?」に対する類似チャットテキストデータ:「赤はいいですね」の第1スコア「6.5」も閾値以上であると判定する。
また、意見集約装置100Aは、第1テキストデータ:「赤色のモデルは好きですか?」に対する類似チャットテキストデータ:「赤は微妙」の第1スコア「8.5」が閾値以上であり、第1テキストデータ:「何色のモデルが好きですか?」に対する類似チャットテキストデータ:「赤は微妙」の第1スコア「0.3」が閾値より小さいと判定する。
ステップ208において、意見集約装置100Aは、判定結果に基づいて、入力文に類似する類似文を出力する。
例えば、第1テキストデータが複数である場合、意見集約装置100Aは、全ての第1テキストデータに対するチャットテキストデータの第1スコアが閾値以上となるという判定結果に基づいて、「赤色のモデルいいね」、「赤はいいですね」を、入力文に類似する類似文として出力する。具体的には、意見集約装置100Aは、第1テキストデータ「赤色のモデルは好きですか?」に対して、第1スコアが閾値以上となる類似チャットテキストデータとして、「赤色のモデルいいね」、「赤は微妙」、「赤はいいですね」を上位テキスト群に分類する。また、意見集約装置100Aは、第1テキストデータ「何色のモデルが好きですか?」に対して、第1スコアが閾値以上となる類似チャットテキストデータとして、「赤色のモデルいいね」、「赤はいいですね」を上位テキスト群に分類する。そして、意見集約装置100Aは、両方の上位テキスト群に共通して含まれる類似チャットテキストデータ、すなわち、「赤色のモデルいいね」、「赤はいいですね」を出力する。
第2実施形態に係る意見集約方法は、文章連続性スコアに基づいて、類似テキストを分類する。つまり、入力文を変換し、所定の類似文が、変換された入力文に対して会話文として成立するか否かを文章連続性スコアとして算出し、このスコアにより、入力文と所定の類似文との同調性又は同様性を測る。平叙文に対しては、その疑問文をとり、その疑問文と所定の類似文との文章連続性スコアを算出することで、元の平叙文との同調性をスコア化する。疑問文に対しては、その回答文をとり、所定の類似文とその回答文との文章連続性スコアを算出することで、元の疑問文との同様性をスコア化する。これにより、短い文に対してもテキスト情報のみで意味的情報を捉えた分類を効率的に行うことが可能な意見集約方法を実現できる。また、計算コストを抑えた意見集約方法を実現できる。また、会話文として成立するか否かを分類基準とするため、分類結果の解釈が容易な意見集約方法を実現できる。
<変形例>
本発明は上記の実施形態および変形例に限定されるものではない。例えば、上述の各種の処理は、記載にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
上記の実施形態及び変形例として機能させるためにプログラム命令を実行可能なコンピュータを用いることも可能である。ここで、コンピュータは、汎用コンピュータ、専用コンピュータ、ワークステーション、PC(Personal Computer)、電子ノートパッドなどであってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。制御部110,110Aとして機能するプロセッサは、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、SoC(System on a Chip)などであり、同種又は異種の複数のプロセッサにより構成されてもよい。制御部110,110Aは、記憶部120からプログラムを読み出し、プログラムを実行することで、上記各構成の制御及び各種の演算処理を行う。なお、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。
例えば、上述した意見集約方法をコンピュータに実行させるためのプログラムは、図4を参照すると、入力文が平叙文であるか疑問文であるかを判定するステップ(S101,S102)と、入力文が平叙文である場合、入力文を疑問文化した第1テキストデータを生成するステップ(S103)と、入力文が疑問文である場合、入力文に簡易回答した第2テキストデータを生成するステップ(S104)と、第1テキストデータとチャットテキストデータとの文章連続性を示す第1スコア、又は、チャットテキストデータと第2テキストデータとの文章連続性を示す第2スコアを算出するステップ(S105)と、第1スコア又は第2スコアが閾値以上である場合、該第1スコア又は該第2スコアを有するチャットテキストデータを出力するステップ(S106,S107)と、を少なくとも含む。
また、このプログラムは、コンピュータが読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、CD(Compact Disk)-ROM(Read-Only Memory)、DVD(Digital Versatile Disc)-ROM、BD(Blu-ray(登録商標) Disc)-ROMなどであってもよい。また、このプログラムは、ネットワークを介したダウンロードによって提供することもできる。
上述の実施形態は代表的な例として説明したが、本開示の趣旨及び範囲内で、多くの変更および置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。また、実施形態のフローチャートに記載の複数の工程を1つに組み合わせたり、あるいは1つの工程を分割したりすることが可能である。
10 平叙文/疑問文判定部(第1判定部)
20 疑問文生成部(第1生成部)
30 回答文生成部(第2生成部)
40 文章連続性スコア算出部(算出部)
50 閾値判定部(第2判定部)
60 類似文法テキスト検索部(検索部)
100,100A 意見集約装置
110,110A 制御部
120 記憶部
130 入力部
140 出力部

Claims (7)

  1. 入力文に対して意味的情報を捉えた分類を行う意見集約装置であって、
    入力文が平叙文であるか疑問文であるかを判定する第1判定部と、
    前記入力文が前記平叙文である場合、前記入力文を疑問文化した第1テキストデータを生成する第1生成部と、
    前記入力文が前記疑問文である場合、前記入力文に簡易回答した第2テキストデータを生成する第2生成部と、
    複数のチャットテキストデータを含むチャットテキストデータベースを記憶する記憶部と、
    前記第1テキストデータと前記チャットテキストデータとの文章連続性を示す第1スコア、又は、前記チャットテキストデータと前記第2テキストデータとの文章連続性を示す第2スコアを算出する算出部と、
    前記第1スコア又は前記第2スコアが閾値以上である場合、該第1スコア又は該第2スコアを有する前記チャットテキストデータを出力する第2判定部と、
    を備える、意見集約装置。
  2. 前記第2判定部は、
    前記第1テキストデータ又は前記第2テキストデータが複数である場合、
    全ての前記第1テキストデータ又は全ての前記第2テキストデータに対して、前記第1スコア又は前記第2スコアが前記閾値以上となる前記チャットテキストデータを出力する、
    請求項1に記載の意見集約装置。
  3. 入力文に対して意味的情報を捉えた分類を行う意見集約装置であって、
    入力文が平叙文であるか疑問文であるかを判定する第1判定部と、
    前記入力文が前記平叙文である場合、前記入力文を疑問文化した第1テキストデータを生成する第1生成部と、
    前記入力文が前記疑問文である場合、前記入力文に簡易回答した第2テキストデータを生成する第2生成部と、
    複数のチャットテキストデータを含むチャットテキストデータベースを記憶する記憶部と、
    前記チャットテキストデータベースから、前記入力文と文法的に類似するチャットテキストデータを検索し、検索したチャットテキストデータと前記入力文との類似度に基づいて、類似チャットテキストデータを出力する検索部と、
    前記第1テキストデータと前記類似チャットテキストデータとの文章連続性を示す第1スコア、又は、前記類似チャットテキストデータと前記第2テキストデータとの文章連続性を示す第2スコアを算出する算出部と、
    前記第1スコア又は前記第2スコアが閾値以上である場合、該第1スコア又は該第2スコアを有する前記類似チャットテキストデータを出力する第2判定部と、
    を備える、意見集約装置。
  4. 前記第2判定部は、
    前記第1テキストデータ又は前記第2テキストデータが複数である場合、
    全ての前記第1テキストデータ又は全ての前記第2テキストデータに対して、前記第1スコア又は前記第2スコアが前記閾値以上となる前記類似チャットテキストデータを出力する、
    請求項3に記載の意見集約装置。
  5. 入力文に対して意味的情報を捉えた分類を行う意見集約装置による意見集約方法であって、
    前記意見集約装置が、
    入力文が平叙文であるか疑問文であるかを判定するステップと、
    前記入力文が前記平叙文である場合、前記入力文を疑問文化した第1テキストデータを生成するステップと、
    前記入力文が前記疑問文である場合、前記入力文に簡易回答した第2テキストデータを生成するステップと、
    複数のチャットテキストデータを含むチャットテキストデータベースを記憶するステップと、
    前記第1テキストデータと前記チャットテキストデータとの文章連続性を示す第1スコア、又は、前記チャットテキストデータと前記第2テキストデータとの文章連続性を示す第2スコアを算出するステップと、
    前記第1スコア又は前記第2スコアが閾値以上である場合、該第1スコア又は該第2スコアを有する前記チャットテキストデータを出力するステップと、
    実行する、意見集約方法。
  6. 入力文に対して意味的情報を捉えた分類を行う意見集約装置による意見集約方法であって、
    前記意見集約装置が、
    入力文が平叙文であるか疑問文であるかを判定するステップと、
    前記入力文が前記平叙文である場合、前記入力文を疑問文化した第1テキストデータを生成するステップと、
    前記入力文が前記疑問文である場合、前記入力文に簡易回答した第2テキストデータを生成するステップと、
    複数のチャットテキストデータを含むチャットテキストデータベースを記憶するステップと、
    前記チャットテキストデータベースから、前記入力文と文法的に類似するチャットテキストデータを検索し、検索したチャットテキストデータと前記入力文との類似度に基づいて、類似チャットテキストデータを出力するステップと、
    前記第1テキストデータと前記類似チャットテキストデータとの文章連続性を示す第1スコア、又は、前記類似チャットテキストデータと前記第2テキストデータとの文章連続性を示す第2スコアを算出するステップと、
    前記第1スコア又は前記第2スコアが閾値以上である場合、該第1スコア又は該第2スコアを有する前記類似チャットテキストデータを出力するステップと、
    実行する、意見集約方法。
  7. コンピュータを、請求項1から4のいずれか一項に記載の意見集約装置として機能させるためのプログラム。
JP2022569400A 2020-12-16 2020-12-16 意見集約装置、意見集約方法、およびプログラム Active JP7492166B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/047000 WO2022130541A1 (ja) 2020-12-16 2020-12-16 意見集約装置、意見集約方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2022130541A1 JPWO2022130541A1 (ja) 2022-06-23
JP7492166B2 true JP7492166B2 (ja) 2024-05-29

Family

ID=82059183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022569400A Active JP7492166B2 (ja) 2020-12-16 2020-12-16 意見集約装置、意見集約方法、およびプログラム

Country Status (3)

Country Link
US (1) US20240046038A1 (ja)
JP (1) JP7492166B2 (ja)
WO (1) WO2022130541A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005117155A (ja) 2003-10-03 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 電子会議データ取得方法、装置、プログラム、および記録媒体ならびに電子会議データ検索方法、装置、プログラム、および記録媒体
JP2010048953A (ja) 2008-08-20 2010-03-04 Toshiba Corp 対話文生成装置
JP2012064073A (ja) 2010-09-17 2012-03-29 Baazu Joho Kagaku Kenkyusho:Kk 自動会話制御システム及び自動会話制御方法
JP2018055548A (ja) 2016-09-30 2018-04-05 株式会社Nextremer 対話装置、学習装置、対話方法、学習方法、およびプログラム
JP2020102193A (ja) 2018-12-20 2020-07-02 楽天株式会社 文章変換システム、文章変換方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005117155A (ja) 2003-10-03 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 電子会議データ取得方法、装置、プログラム、および記録媒体ならびに電子会議データ検索方法、装置、プログラム、および記録媒体
JP2010048953A (ja) 2008-08-20 2010-03-04 Toshiba Corp 対話文生成装置
JP2012064073A (ja) 2010-09-17 2012-03-29 Baazu Joho Kagaku Kenkyusho:Kk 自動会話制御システム及び自動会話制御方法
JP2018055548A (ja) 2016-09-30 2018-04-05 株式会社Nextremer 対話装置、学習装置、対話方法、学習方法、およびプログラム
JP2020102193A (ja) 2018-12-20 2020-07-02 楽天株式会社 文章変換システム、文章変換方法、及びプログラム

Also Published As

Publication number Publication date
WO2022130541A1 (ja) 2022-06-23
JPWO2022130541A1 (ja) 2022-06-23
US20240046038A1 (en) 2024-02-08

Similar Documents

Publication Publication Date Title
US11164568B2 (en) Speech recognition method and apparatus, and storage medium
Buntain et al. Automatically identifying fake news in popular twitter threads
US10134389B2 (en) Clustering user utterance intents with semantic parsing
US10430405B2 (en) Apply corrections to an ingested corpus
Emmery et al. Simple queries as distant labels for predicting gender on twitter
Blanchard et al. Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities
Niu et al. An Improved Method for Web Text Affective Cognition Computing Based on Knowledge Graph.
Chen et al. Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network
Dutta et al. HCAM--Hierarchical Cross Attention Model for Multi-modal Emotion Recognition
Goncalves et al. Versatile audio-visual learning for handling single and multi modalities in emotion regression and classification tasks
US9262735B2 (en) Identifying and amalgamating conditional actions in business processes
Azad et al. Picking pearl from seabed: Extracting artefacts from noisy issue triaging collaborative conversations for hybrid cloud services
US20220327402A1 (en) Automated Compositing of Content Compilations
Yang et al. Topic audiolization: A model for rumor detection inspired by lie detection technology
Nguyen et al. Improving multimodal sentiment analysis: Supervised angular margin-based contrastive learning for enhanced fusion representation
JP7492166B2 (ja) 意見集約装置、意見集約方法、およびプログラム
CN112446206A (zh) 一种菜谱标题的生成方法及装置
Dhaliwal et al. On-device extractive text summarization
Khiabani et al. SocialPET: Socially Informed Pattern Exploiting Training for Few-Shot Stance Detection in Social Media
Ahmed et al. Interpretable movie review analysis using machine learning and transformer models leveraging XAI
Jonathan et al. Machine learning framework for detecting offensive Swahili messages in social networks with Apache spark implementation
JP5829471B2 (ja) 意味分析装置およびそのプログラム
Ban et al. Multimodal aspect-level sentiment analysis based on deep neural networks
Wu et al. A graph-to-sequence model for joint intent detection and slot filling
Yu et al. A novel Chinese–Tibetan mixed-language rumor detector with multi-extractor representations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230322

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240429

R150 Certificate of patent or registration of utility model

Ref document number: 7492166

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150