JP5678896B2 - 要求抽出システム、要求抽出方法および要求抽出プログラム - Google Patents
要求抽出システム、要求抽出方法および要求抽出プログラム Download PDFInfo
- Publication number
- JP5678896B2 JP5678896B2 JP2011549767A JP2011549767A JP5678896B2 JP 5678896 B2 JP5678896 B2 JP 5678896B2 JP 2011549767 A JP2011549767 A JP 2011549767A JP 2011549767 A JP2011549767 A JP 2011549767A JP 5678896 B2 JP5678896 B2 JP 5678896B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- candidate
- character string
- unnecessary
- important
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
図1は、本発明の要求抽出システムの第1の実施形態(実施形態1)の構成例を示すブロック図である。図1に示す要求抽出システムは、記憶部1と重要語句抽出部2とを備える。
図3は、本発明の要求抽出システムの第2の実施形態(実施形態2)の構成例を示すブロック図である。図3に示す要求抽出システムは、記憶部3と重要語句抽出部4とを備える。
Claims (10)
- 文字列の集合である文書から、一の文字列と他の文字列のそれぞれとで共通する連続した部分列の最大長の部分列を一の文字列に対する重要語句の候補として抽出する候補抽出部と、
前記候補抽出部によって抽出された一の文字列に対する重要語句の候補のうちの、他の候補の部分列とならない候補を選択する候補統合部と、
前記候補統合部によって選択された、各文字列についての重要語句の候補の集合のうち、他の文字列についての集合の部分集合とならないものをまとめて重要語句の集合とする集合統合部と、
を備えることを特徴とする要求抽出システム。 - 前記候補抽出部は、一の文字列と他の文字列のそれぞれとで共通する連続した部分列の最大長の部分列のうち、所定の文字数以上の部分列だけを重要語句の候補として抽出する請求項1記載の要求抽出システム。
- 重要語句として抽出する必要がないと予め定められた不要語句を文書から削除する不要語句削除部を備える請求項1または請求項2記載の要求抽出システム。
- 前記不要語句削除部は、文書ごとに抽出する必要がないと予め定められた不要語句に一致する部分を前記文書から削除し、構文解析によって分割された1つまたは連続する複数の形態素が、一般に抽出する必要がないと予め定められた不要語句に一致する場合に、当該形態素を前記文書から削除する請求項3記載の要求抽出システム。
- 前記候補抽出部は、予め定められた重要語句の第1文字として不適な不要接頭語句を語頭に含まず、予め定められた重要語句の最終文字として不適な不要接尾語句を語尾に含まない重要語句の候補を抽出する請求項1から請求項4のうちのいずれか1項に記載の要求抽出システム。
- 文書における文、一行、段落、章のいずれか、またはその組合せを文字列とする請求項1から請求項5のうちのいずれか1項に記載の要求抽出システム。
- コンピュータにより実行される要求抽出方法において、
文字列の集合である文書から、一の文字列と他の文字列のそれぞれとで共通する連続した部分列の最大長の部分列を一の文字列に対する重要語句の候補として抽出し、
前記抽出された一の文字列に対する重要語句の候補のうちの、他の候補の部分列とならない候補を選択し、
前記選択された、各文字列についての重要語句の候補の集合のうち、他の文字列についての集合の部分集合とならないものをまとめて重要語句の集合とする、
ことを特徴とする要求抽出方法。 - 一の文字列と他の文字列のそれぞれとで共通する連続した部分列の最大長の部分列のうち、所定の文字数以上の部分列だけを重要語句の候補として抽出する請求項7記載の要求抽出方法。
- コンピュータに、
文字列の集合である文書から、一の文字列と他の文字列のそれぞれとで共通する連続した部分列の最大長の部分列を一の文字列に対する重要語句の候補として抽出する処理と、
前記抽出された一の文字列に対する重要語句の候補のうちの、他の候補の部分列とならない候補を選択する処理と、
前記選択された、各文字列についての重要語句の候補の集合のうち、他の文字列についての集合の部分集合とならないものをまとめて重要語句の集合とする処理と、
を実行させるための要求抽出プログラム。 - コンピュータに、
一の文字列と他の文字列のそれぞれとで共通する連続した部分列の最大長の部分列のうち、所定の文字数以上の部分列だけを重要語句の候補として抽出する処理、
を更に実行させるための請求項9記載の要求抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011549767A JP5678896B2 (ja) | 2010-01-18 | 2010-12-13 | 要求抽出システム、要求抽出方法および要求抽出プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010008010 | 2010-01-18 | ||
JP2010008010 | 2010-01-18 | ||
PCT/JP2010/007229 WO2011086637A1 (ja) | 2010-01-18 | 2010-12-13 | 要求抽出システム、要求抽出方法および要求抽出プログラム |
JP2011549767A JP5678896B2 (ja) | 2010-01-18 | 2010-12-13 | 要求抽出システム、要求抽出方法および要求抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011086637A1 JPWO2011086637A1 (ja) | 2013-05-16 |
JP5678896B2 true JP5678896B2 (ja) | 2015-03-04 |
Family
ID=44303944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011549767A Active JP5678896B2 (ja) | 2010-01-18 | 2010-12-13 | 要求抽出システム、要求抽出方法および要求抽出プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120284271A1 (ja) |
JP (1) | JP5678896B2 (ja) |
WO (1) | WO2011086637A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6379666B2 (ja) * | 2014-05-21 | 2018-08-29 | 富士通株式会社 | 文書解析装置、文書解析プログラム及び文書解析方法 |
JP6008067B2 (ja) * | 2014-07-22 | 2016-10-19 | 日本電気株式会社 | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム |
JP6476886B2 (ja) * | 2015-01-19 | 2019-03-06 | 日本電気株式会社 | キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム |
JP7183600B2 (ja) * | 2018-07-20 | 2022-12-06 | 株式会社リコー | 情報処理装置、システム、方法およびプログラム |
CN112307251B (zh) * | 2019-06-24 | 2021-08-20 | 上海松鼠课堂人工智能科技有限公司 | 英语词汇知识点图谱自适应识别关联系统和方法 |
CN114586038B (zh) * | 2020-09-28 | 2024-08-27 | 京东方科技集团股份有限公司 | 事件抽取和抽取模型训练的方法和装置、设备、介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001022752A (ja) * | 1999-07-02 | 2001-01-26 | Hitachi Tohoku Software Ltd | 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体 |
JP2005107793A (ja) * | 2003-09-30 | 2005-04-21 | Sony Corp | キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
JP3113814B2 (ja) * | 1996-04-17 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法及び情報検索装置 |
US6076060A (en) * | 1998-05-01 | 2000-06-13 | Compaq Computer Corporation | Computer method and apparatus for translating text to sound |
US8612208B2 (en) * | 2004-04-07 | 2013-12-17 | Oracle Otc Subsidiary Llc | Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query |
CA2657212C (en) * | 2005-07-15 | 2017-02-28 | Indxit Systems, Inc. | Systems and methods for data indexing and processing |
JP5224953B2 (ja) * | 2008-07-17 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理装置、情報処理方法およびプログラム |
-
2010
- 2010-12-13 WO PCT/JP2010/007229 patent/WO2011086637A1/ja active Application Filing
- 2010-12-13 US US13/522,656 patent/US20120284271A1/en not_active Abandoned
- 2010-12-13 JP JP2011549767A patent/JP5678896B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001022752A (ja) * | 1999-07-02 | 2001-01-26 | Hitachi Tohoku Software Ltd | 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体 |
JP2005107793A (ja) * | 2003-09-30 | 2005-04-21 | Sony Corp | キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20120284271A1 (en) | 2012-11-08 |
JPWO2011086637A1 (ja) | 2013-05-16 |
WO2011086637A1 (ja) | 2011-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11682226B2 (en) | Method and system for assessing similarity of documents | |
US7424421B2 (en) | Word collection method and system for use in word-breaking | |
US8224641B2 (en) | Language identification for documents containing multiple languages | |
JP5678896B2 (ja) | 要求抽出システム、要求抽出方法および要求抽出プログラム | |
US9965460B1 (en) | Keyword extraction for relationship maps | |
JPS63254559A (ja) | 複合ワードのためのスペリング援助方法 | |
CN103052951B (zh) | 字符串生成方法和系统 | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
JP2006251843A (ja) | 同義語対抽出装置及びそのためのコンピュータプログラム | |
JP4237813B2 (ja) | 構造化文書管理システム | |
Paul et al. | An affix removal stemmer for natural language text in nepali | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
Howard et al. | Phonetic spelling algorithm implementations for R | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
KR20170107808A (ko) | 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램 | |
JP6811087B2 (ja) | 検索装置、検索方法、及びプログラム | |
JP3937741B2 (ja) | 文書の標準化 | |
KR101694179B1 (ko) | 모음 제거 기반 인덱스 생성 방법 및 장치 | |
JP5491446B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
JP6589704B2 (ja) | 文境界推定装置、方法およびプログラム | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
WO2011118428A1 (ja) | 要求獲得システム、要求獲得方法、及び要求獲得用プログラム | |
JP6777601B2 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
KR20090066470A (ko) | 기 분석 데이터를 이용한 한국어 형태소 분석 시스템 및방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140924 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141222 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5678896 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |