JP6536580B2 - 文集合抽出システム、方法およびプログラム - Google Patents
文集合抽出システム、方法およびプログラム Download PDFInfo
- Publication number
- JP6536580B2 JP6536580B2 JP2016535794A JP2016535794A JP6536580B2 JP 6536580 B2 JP6536580 B2 JP 6536580B2 JP 2016535794 A JP2016535794 A JP 2016535794A JP 2016535794 A JP2016535794 A JP 2016535794A JP 6536580 B2 JP6536580 B2 JP 6536580B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sentences
- similar
- sentence set
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Description
図1は、本発明による文集合抽出システムの第1の実施形態の構成例を示すブロック図である。本実施形態の文集合抽出システムは、分析対象文入力部11と、類似文集合生成部12と、類似文集合抽出部13とを備えている。
含意による類似文集合2:「待ち時間が長い、画面切り替えで待たされる」
図6は、本発明による文集合抽出システムの第2の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態の文集合抽出システムは、分析対象文入力部11と、分析文集合生成部22と、類似文集合特定部23とを備えている。
12 類似文集合生成部
13 類似文集合抽出部
22 分析文集合生成部
23 類似文集合特定部
Claims (10)
- 分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成部と、
分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出部とを備えた
ことを特徴とする文集合抽出システム。 - 類似文集合抽出部は、特定文抽出器で抽出されない文を含む1つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
請求項1記載の文集合抽出システム。 - 類似文集合抽出部は、特定文抽出器で抽出されない文を含む類似文集合をそれぞれ特定し、特定された類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
請求項1記載の文集合抽出システム。 - 類似文集合生成部は、分析対象文同士の同義または含意関係に基づいて、分析対象文の集合をクラスタリングすることにより、類似文集合を作成する
請求項1から請求項3のうちのいずれか1項に記載の文集合抽出システム。 - 類似文集合抽出部は、特定文抽出器を用いて抽出される文の数を類似文集合ごとに集計し、各特徴文抽出器で抽出された文の数および当該特定文抽出器で抽出されなかった文の数を類似文集合ごとに出力する
請求項1から請求項4のうちのいずれか1項に記載の文集合抽出システム。 - 入力される文の集合から、分析対象文を抽出する分析対象文入力部を備えた
請求項1から請求項5のうちのいずれか1項に記載の文集合抽出システム。 - 分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成部と、
前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定部とを備えた
ことを特徴とする文集合抽出システム。 - コンピュータの類似文集合生成部が、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、
コンピュータの類似文集合抽出部が、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する
ことを特徴とする文集合抽出方法。 - コンピュータの分析文集合生成部が、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成し、
コンピュータの類似文集合特定部が、前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、
前記類似文集合特定部が、含まれる文の数が所定の条件を満たす類似文集合を特定する
ことを特徴とする文集合抽出方法。 - コンピュータに、
分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成処理、および、
分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出処理
を実行させるための文集合抽出プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014149425 | 2014-07-23 | ||
JP2014149425 | 2014-07-23 | ||
PCT/JP2015/003652 WO2016013209A1 (ja) | 2014-07-23 | 2015-07-21 | 文集合抽出システム、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016013209A1 JPWO2016013209A1 (ja) | 2017-04-27 |
JP6536580B2 true JP6536580B2 (ja) | 2019-07-03 |
Family
ID=55162753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016535794A Active JP6536580B2 (ja) | 2014-07-23 | 2015-07-21 | 文集合抽出システム、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20170220585A1 (ja) |
JP (1) | JP6536580B2 (ja) |
WO (1) | WO2016013209A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11783005B2 (en) | 2019-04-26 | 2023-10-10 | Bank Of America Corporation | Classifying and mapping sentences using machine learning |
US11328025B1 (en) | 2019-04-26 | 2022-05-10 | Bank Of America Corporation | Validating mappings between documents using machine learning |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003141132A (ja) * | 2001-10-30 | 2003-05-16 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP4745419B2 (ja) * | 2009-05-15 | 2011-08-10 | 株式会社東芝 | 文書分類装置およびプログラム |
JP5389130B2 (ja) * | 2011-09-15 | 2014-01-15 | 株式会社東芝 | 文書分類装置、方法およびプログラム |
-
2015
- 2015-07-21 WO PCT/JP2015/003652 patent/WO2016013209A1/ja active Application Filing
- 2015-07-21 US US15/328,199 patent/US20170220585A1/en not_active Abandoned
- 2015-07-21 JP JP2016535794A patent/JP6536580B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JPWO2016013209A1 (ja) | 2017-04-27 |
WO2016013209A1 (ja) | 2016-01-28 |
US20170220585A1 (en) | 2017-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10108698B2 (en) | Common data repository for improving transactional efficiencies of user interactions with a computing device | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
JP6536580B2 (ja) | 文集合抽出システム、方法およびプログラム | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
JP6191440B2 (ja) | スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法 | |
JP5838871B2 (ja) | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム | |
JP5757551B2 (ja) | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム | |
JPWO2014064777A1 (ja) | 文書評価支援システム、及び文書評価支援方法 | |
JPWO2016147219A1 (ja) | テキスト可視化システム、テキスト可視化方法、及び、プログラム | |
JP6642429B2 (ja) | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム | |
JP6008067B2 (ja) | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム | |
JP5162215B2 (ja) | データ処理装置、データ処理方法、および、プログラム | |
JP6190341B2 (ja) | データ生成装置、データ生成方法、及びプログラム | |
MX2022014972A (es) | Sistema de busqueda de informacion. | |
JP5389764B2 (ja) | マイクロブログテキスト分類装置及び方法及びプログラム | |
JP5642229B2 (ja) | 重要性判定システム、重要性判定方法及びコンピュータプログラム | |
CN113656443B (zh) | 数据拆解方法、装置、电子设备和存储介质 | |
JP5761033B2 (ja) | 文書分析装置、文書分析方法、およびプログラム | |
US11783112B1 (en) | Framework agnostic summarization of multi-channel communication | |
JP4750674B2 (ja) | データ表示制御プログラム、データ表示制御方法およびデータ表示制御装置 | |
JP5324500B2 (ja) | ファイル共有装置 | |
JP6934621B2 (ja) | 方法、装置、及びプログラム | |
KR20230000421A (ko) | 특허 문헌을 이용한 신 기술요소 추출 방법 및 장치와 이를 이용한 신 기술요소 추출 시스템 | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180604 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190319 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190520 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6536580 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |