JP6757840B2 - 文抽出システム、文抽出方法、及びプログラム - Google Patents
文抽出システム、文抽出方法、及びプログラム Download PDFInfo
- Publication number
- JP6757840B2 JP6757840B2 JP2019183761A JP2019183761A JP6757840B2 JP 6757840 B2 JP6757840 B2 JP 6757840B2 JP 2019183761 A JP2019183761 A JP 2019183761A JP 2019183761 A JP2019183761 A JP 2019183761A JP 6757840 B2 JP6757840 B2 JP 6757840B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sentences
- interrogative
- expression
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
以下、本発明に関わる文章抽出システムの実施形態の例を説明する。図1は、文章抽出システムの全体構成を示す図である。図1に示すように、文章抽出システム1は、サーバ10及びユーザ端末20を含み、これらはインターネットなどのネットワークNに接続される。図1では、サーバ10及びユーザ端末20を1台ずつ示しているが、これらは複数台あってもよい。
文章抽出システム1は、複数の文章の中から、疑問文生成器に入力される少なくとも1つの文章を抽出する。
本実施形態では、入力文を抽出する手法の一例として、整数線形計画問題による文抽出(以降、ILP文抽出)を説明する。例えば、ILP文抽出では、入力として文集合D={s1,・・・,sN}(Nは2以上の整数)が与えられる。文集合Dは、文章抽出システム1が最初に取得するコメントの集合であり、入力文の抽出元となる母集団である。ILP文抽出は、文集合Dから、適切な部分集合S⊆Dを構成する問題として捉えられる。
図4は、文章抽出システム1で実現される機能の一例を示す機能ブロック図である。図4に示すように、例えば、データ記憶部100、文章取得部101、特定部102、抽出部103、入力部104、疑問文取得部105、及び疑問文出力部106が実現される。本実施形態では、これら各機能がサーバ10において実現される。データ記憶部100は、記憶部12を主として実現され、他の各機能は、制御部11を主として実現される。
データ記憶部100は、文章を抽出するために必要なデータを記憶する。例えば、データ記憶部100は、疑問文生成器、文章データベースDB1、辞書データベースDB2、及び疑問文データベースDB3を記憶する。なお、図4では、疑問文生成器の符号は省略する。
文章取得部101は、複数の文章を取得する。文章取得部101が取得する文章は、母集団となる文集合Dである。本実施形態では、文書データベースに文章が格納されているので、文章取得部101は、文章データベースDB1を参照し、複数の文章を取得する。
特定部102は、複数の文章に含まれる、少なくとも1つの特徴的な表現を特定する。本実施形態では、辞書データベースDB2に特徴的な表現が定義されているので、特定部102は、文章取得部101が取得した複数の文章の中に、辞書データベースDB2に格納された特徴的な表現が含まれているか否かを判定する。別の言い方をすれば、特定部102は、文章取得部101が取得した複数の文章の中から、辞書データベースDB2に格納された特徴的な表現を検索する。
抽出部103は、特定部102により特定された少なくとも1つの特徴的な表現に基づいて、複数の文章の中から、入力文から疑問文を生成する疑問文生成器に入力される少なくとも1つの文章を抽出する。ここでの抽出とは、入力文の絞り込み、選択、又は、フィルタリングということもできる。別の言い方をすれば、抽出部103は、複数の文章の要約を作成するということもできる。
入力部104は、抽出部103により抽出された少なくとも1つの文章を疑問文生成器に入力する。例えば、機械翻訳を流用した疑問文生成器であれば、入力部104は、文章の特徴量(特徴ベクトル)を計算し、疑問文生成器に入力する。疑問文生成器は、文章の特徴量に基づいて、疑問文を出力する。なお、疑問文生成器が特徴量を計算するアルゴリズムを有している場合には、入力部104は、文章が示す文字列をそのまま疑問文に入力し、疑問文生成器は、自身で特徴量を計算し、疑問文を出力してもよい。
疑問文取得部105は、疑問文生成器により生成された少なくとも1つの疑問文を取得する。疑問文取得部105は、疑問文生成器の出力内容を取得し、疑問文データベースDB3に格納する。本実施形態では、疑問文の生成対象となる属性が指定されるので、疑問文取得部105は、当該属性に関連付けて疑問文を疑問文データベースDB3に格納する。属性に関連付けられた疑問文は、当該属性の評価対象が提供されたユーザに対して出力される。
疑問文出力部106は、疑問文データベースDB3に基づいて、疑問文を出力する。図8は、疑問文が出力される様子を示す図である。図8に示すように、例えば、疑問文出力部106は、疑問文データベースDB3に格納された疑問文q3をユーザ端末20に表示させ、ユーザによるコメントの入力を促す。本実施形態では、疑問文出力部106は、文章を入力していないユーザに対し、疑問文を出力する場合を説明するが、疑問文は、文章を入力済みのユーザに対して出力されてもよい。疑問文出力部106は、ユーザ端末20に表示されるコンテンツの属性に関連付けられた疑問文を出力する。複数の疑問文が生成されている場合には、疑問文出力部106は、ランダムに任意の疑問文を出力してもよいし、生起確率が高い表現を含む疑問文を出力してもよい。
図9は、サーバ10によって実行される処理を示すフロー図である。図9に示す処理は、制御部11が記憶部12に記憶されたプログラムに基づいて動作することによって実行される。図9に示す処理は、図4に示す機能ブロックにより実行される処理の一例である。
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
Claims (16)
- 複数の文章を取得する文章取得手段と、
前記複数の文書の中に、辞書データベースに格納された特徴的な表現が含まれているか否かを判定し、前記複数の文章に含まれる、少なくとも1つの特徴的な表現を特定する特定手段と、
前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含む少なくとも1つの文を、入力文から疑問文を生成する疑問文生成器に入力される少なくとも1つの文として、抽出する抽出手段と、
を実現する少なくとも1つのプロセッサを含むことを特徴とする文抽出システム。 - 前記疑問文生成器は、前記入力文から計算される特徴量に基づいて、前記疑問文を生成する、
ことを特徴とする請求項1に記載の文抽出システム。 - 前記文抽出システムは、
前記疑問文生成器を記憶する記憶手段と、
前記少なくとも1つの文を前記疑問文生成器に入力する入力手段と、
前記疑問文生成器により生成された少なくとも1つの疑問文を取得する疑問文取得手段と、
を更に含むことを特徴とする請求項1又は2に記載の文抽出システム。 - 前記特定手段は、前記複数の文章に含まれる、複数の特徴的な表現を特定し、
前記抽出手段は、抽出される文全体に含まれる特徴的な表現が多くなるように、前記少なくとも1つの文を抽出する、
ことを特徴とする請求項1〜3の何れかに記載の文抽出システム。 - 前記特定手段は、前記複数の文章に含まれる、複数の特徴的な表現を特定し、
前記抽出手段は、所定の条件に基づいて、前記複数の特徴的な表現の中から、文の抽出に使用される少なくとも1つの特徴的な表現を決定し、前記決定された少なくとも1つの特徴的な表現を含む、前記少なくとも1つの文を抽出する、
ことを特徴とする請求項1〜4の何れかに記載の文抽出システム。 - 前記抽出手段は、抽出される文の分量が所定の範囲に収まるように、前記少なくとも1つの文を抽出する、
ことを特徴とする請求項1〜5の何れかに記載の文抽出システム。 - 前記抽出手段は、前記少なくとも1つの特徴的な表現の生起確率を取得し、前記生起確率に基づいて、前記少なくとも1つの文を抽出する、
ことを特徴とする請求項1〜6の何れかに記載の文抽出システム。 - 前記抽出手段は、前記少なくとも1つの特徴的な表現と、当該表現と係り受け関係にある係り受け語と、の距離である係り受け距離を取得し、前記係り受け距離に基づいて、前記少なくとも1つの文を抽出する、
ことを特徴とする請求項1〜7の何れかに記載の文抽出システム。 - 前記抽出手段は、前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含み、かつ、当該表現の数と、当該表現と係り受け関係にある係り受け語の数と、が一致する少なくとも1つの文を抽出する、
ことを特徴とする請求項1〜8の何れかに記載の文抽出システム。 - 前記抽出手段は、前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含み、かつ、当該表現と係り受け関係にある係り受けの語の数が所定の範囲に収まる少なくとも1つの文を抽出する、
ことを特徴とする請求項1〜9の何れかに記載の文抽出システム。 - 前記抽出手段は、前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含み、かつ、当該表現の数が所定の範囲に収まる少なくとも1つの文を抽出する、
ことを特徴とする請求項1〜10の何れかに記載の文抽出システム。 - 前記抽出手段は、抽出される文章の中に、同じ表現を含む文の数が所定の範囲に収まるように、前記少なくとも1つの文を抽出する、
ことを特徴とする請求項1〜11の何れかに記載の文抽出システム。 - 前記複数の文章の各々は、評価対象のレビューであり、
前記少なくとも1つの特徴的な表現は、前記評価対象の特徴を示し、
前記疑問文は、レビューの入力をユーザに促すための文章である、
ことを特徴とする請求項1〜12の何れかに記載の文抽出システム。 - 前記評価対象は、複数の属性の少なくとも1つに属し、
前記文章取得手段は、前記属性ごとに、複数のレビューを取得し、
前記特定手段は、前記属性ごとに、前記少なくとも1つの特徴的な表現を特定し、
前記抽出手段は、前記属性ごとに、前記複数のレビューの中から、前記少なくとも1つのレビューを抽出する、
ことを特徴とする請求項13に記載の文抽出システム。 - コンピュータに含まれる少なくとも1つのプロセッサが、
複数の文章を取得する文章取得ステップと、
前記複数の文書の中に、辞書データベースに格納された特徴的な表現が含まれているか否かを判定し、前記複数の文章に含まれる、少なくとも1つの特徴的な表現を特定する特定ステップと、
前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含む少なくとも1つの文を、入力文から疑問文を生成する疑問文生成器に入力される少なくとも1つの文として、抽出する抽出ステップと、
を実行することを特徴とする文抽出方法。 - 複数の文章を取得する文章取得手段、
前記複数の文書の中に、辞書データベースに格納された特徴的な表現が含まれているか否かを判定し、前記複数の文章に含まれる、少なくとも1つの特徴的な表現を特定する特定手段、
前記複数の文章の中から、前記少なくとも1つの特徴的な表現を含む少なくとも1つの文を、入力文から疑問文を生成する疑問文生成器に入力される少なくとも1つの文として、抽出する抽出手段、
として、少なくとも1つのプロセッサを含むコンピュータを機能させるためのプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/289664 | 2019-03-01 | ||
US16/289,664 US11526674B2 (en) | 2019-03-01 | 2019-03-01 | Sentence extraction system, sentence extraction method, and information storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020140692A JP2020140692A (ja) | 2020-09-03 |
JP6757840B2 true JP6757840B2 (ja) | 2020-09-23 |
Family
ID=72236698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019183761A Active JP6757840B2 (ja) | 2019-03-01 | 2019-10-04 | 文抽出システム、文抽出方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11526674B2 (ja) |
JP (1) | JP6757840B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021007088A1 (en) * | 2019-07-05 | 2021-01-14 | Elsevier, Inc. | Systems and methods to extract the context of scientific measurements using targeted question answering |
US11741371B2 (en) * | 2020-03-20 | 2023-08-29 | International Business Machines Corporation | Automatically generating diverse text |
CN113297354A (zh) * | 2021-06-16 | 2021-08-24 | 深圳前海微众银行股份有限公司 | 文本匹配方法、装置、设备及存储介质 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002103562A1 (en) * | 2001-06-19 | 2002-12-27 | Whoi-Yul Kim | Method of extracting shape variation descriptor for retrieving image sequence |
JP3962382B2 (ja) * | 2004-02-20 | 2007-08-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 表現抽出装置、表現抽出方法、プログラム及び記録媒体 |
JP4459267B2 (ja) * | 2005-02-28 | 2010-04-28 | パイオニア株式会社 | 辞書データ生成装置及び電子機器 |
JP5212204B2 (ja) * | 2009-03-19 | 2013-06-19 | トヨタ自動車株式会社 | 応答生成装置及びプログラム |
WO2011078194A1 (ja) * | 2009-12-25 | 2011-06-30 | 日本電気株式会社 | テキストマイニングシステム、テキストマイニング方法および記録媒体 |
JP6233650B2 (ja) * | 2014-05-20 | 2017-11-22 | パナソニックIpマネジメント株式会社 | 操作補助装置および操作補助方法 |
JP2016001242A (ja) * | 2014-06-11 | 2016-01-07 | 日本電信電話株式会社 | 質問文生成方法、装置、及びプログラム |
KR102247533B1 (ko) * | 2014-07-30 | 2021-05-03 | 삼성전자주식회사 | 음성 인식 장치 및 그 제어 방법 |
EP3088165B1 (en) | 2015-02-25 | 2019-08-28 | Technology Research Association For Future Additive Manufacturing | Optical processing head, optical processing device, and optical processing method |
JP6381775B2 (ja) * | 2015-02-25 | 2018-08-29 | 株式会社日立製作所 | 情報処理システム及び情報処理方法 |
WO2016147330A1 (ja) * | 2015-03-18 | 2016-09-22 | 株式会社日立製作所 | テキスト処理方法、及びテキスト処理システム |
JP2017027233A (ja) | 2015-07-17 | 2017-02-02 | 日本電信電話株式会社 | 質問文生成装置、方法、及びプログラム |
US10387570B2 (en) * | 2015-08-27 | 2019-08-20 | Lenovo (Singapore) Pte Ltd | Enhanced e-reader experience |
JP6819990B2 (ja) * | 2016-08-16 | 2021-01-27 | 国立研究開発法人情報通信研究機構 | 対話システム及びそのためのコンピュータプログラム |
US20210286949A1 (en) * | 2017-04-06 | 2021-09-16 | Ntt Docomo, Inc. | Dialogue system |
US9865260B1 (en) * | 2017-05-03 | 2018-01-09 | Google Llc | Proactive incorporation of unsolicited content into human-to-computer dialogs |
WO2019058572A1 (ja) * | 2017-09-20 | 2019-03-28 | シャープ株式会社 | 空気清浄機 |
US10896457B2 (en) * | 2017-12-12 | 2021-01-19 | Amazon Technologies, Inc. | Synchronized audiovisual responses to user requests |
JP7047380B2 (ja) * | 2017-12-28 | 2022-04-05 | 富士通株式会社 | 生成プログラム、生成方法及び情報処理装置 |
JP2019133229A (ja) * | 2018-01-29 | 2019-08-08 | 国立研究開発法人情報通信研究機構 | 質問応答システムの訓練データの作成方法及び質問応答システムの訓練方法 |
US20190355352A1 (en) * | 2018-05-18 | 2019-11-21 | Honda Motor Co., Ltd. | Voice and conversation recognition system |
KR102076548B1 (ko) * | 2018-07-30 | 2020-02-12 | 주식회사 한글과컴퓨터 | 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 |
US11086911B2 (en) * | 2018-07-31 | 2021-08-10 | Wipro Limited | Method and system for generating question variations to user input |
CN109460450B (zh) * | 2018-09-27 | 2021-07-09 | 清华大学 | 对话状态跟踪方法、装置、计算机设备和存储介质 |
-
2019
- 2019-03-01 US US16/289,664 patent/US11526674B2/en active Active
- 2019-10-04 JP JP2019183761A patent/JP6757840B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US11526674B2 (en) | 2022-12-13 |
US20200279018A1 (en) | 2020-09-03 |
JP2020140692A (ja) | 2020-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yeomans et al. | The politeness Package: Detecting Politeness in Natural Language. | |
US11281861B2 (en) | Method of calculating relevancy, apparatus for calculating relevancy, data query apparatus, and non-transitory computer-readable storage medium | |
CA3009758A1 (en) | Systems and methods for suggesting emoji | |
US20160098480A1 (en) | Author moderated sentiment classification method and system | |
JP6757840B2 (ja) | 文抽出システム、文抽出方法、及びプログラム | |
US11409964B2 (en) | Method, apparatus, device and storage medium for evaluating quality of answer | |
US10496751B2 (en) | Avoiding sentiment model overfitting in a machine language model | |
US10922492B2 (en) | Content optimization for audiences | |
CN111414561B (zh) | 用于呈现信息的方法和装置 | |
CN111339284A (zh) | 产品智能匹配方法、装置、设备及可读存储介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
JP7096172B2 (ja) | キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法 | |
JP6626917B2 (ja) | 英語の音節計算法に基づいた可読性評価方法及びシステム | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
Saranya et al. | A Machine Learning-Based Technique with IntelligentWordNet Lemmatize for Twitter Sentiment Analysis. | |
Awwad et al. | Performance comparison of different lexicons for sentiment analysis in Arabic | |
CN107797981B (zh) | 一种目标文本识别方法及装置 | |
Brown et al. | How the Word Adjacency Network (WAN) works | |
Nama et al. | Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach | |
JP6621514B1 (ja) | 要約作成装置、要約作成方法、及びプログラム | |
CN112487303B (zh) | 一种基于社交网络用户属性的主题推荐方法 | |
CN114969371A (zh) | 一种联合知识图谱的热度排序方法及装置 | |
Zhang | News text classification algorithm based on machine learning technology | |
JP7351502B2 (ja) | 変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191004 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20191004 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20191015 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200825 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6757840 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |