JP5542744B2 - 文章抽出装置およびプログラム - Google Patents
文章抽出装置およびプログラム Download PDFInfo
- Publication number
- JP5542744B2 JP5542744B2 JP2011127431A JP2011127431A JP5542744B2 JP 5542744 B2 JP5542744 B2 JP 5542744B2 JP 2011127431 A JP2011127431 A JP 2011127431A JP 2011127431 A JP2011127431 A JP 2011127431A JP 5542744 B2 JP5542744 B2 JP 5542744B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sentences
- document
- pair
- pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
Claims (6)
- 文字列から構成される複数の文を含む文書を入力する入力手段と、
前記入力された文書に含まれる複数の文のうちの2つの文毎に、当該2つの文を第1および第2の文として含む文ペアを作成する作成手段と、
前記作成された文ペアの各々に含まれる第1および第2の文間の類似度を、当該第1および第2の文を構成する文字列に基づいて算出する算出手段と、
前記算出された類似度が予め定められた値より高い第1および第2の文を含む複数の文ペアとして、第1および第2の文ペアを含む複数の文ペアを特定する特定手段と、
前記特定された複数の文ペアの各々に含まれる第1および第2の文の前記入力された文書における位置に基づいて、前記特定された第1の文ペアに含まれる第1の文と前記特定された第2の文ペアに含まれる第1の文との間の距離が予め定められた値以下であり、かつ、当該第1の文ペアに含まれる第2の文と当該第2の文ペアに含まれる第2の文との間の距離が予め定められた値以下である場合に、当該入力された文書、当該第1および第2の文ペアに基づいて、当該文書における当該第1の文ペアに含まれる第1の文から当該第2の文ペアに含まれる第1の文までの間の第1の文の集合と、当該文書における当該第1の文ペアに含まれる第2の文から当該第2の文ペアに含まれる第2の文までの間の第2の文の集合とを当該文書から抽出する抽出手段と、
前記抽出された文の集合を出力する出力手段と
を具備することを特徴とする文章抽出装置。 - 前記入力された文書における位置は、当該文書において先頭の文から順に付与される文番号であり、
前記距離は、文の数である
ことを特徴とする請求項1記載の文章抽出装置。 - 前記文書においてタイトルである文を判別するためのルールを予め格納するルール格納手段と、
前記ルール格納手段に格納されているルールに基づいて、前記入力された文書に含まれる複数の文の中から当該文書においてタイトルである文を判別する判別手段と
を更に具備し、
前記算出手段は、前記作成された文ペアの各々に含まれる第1および第2の文間の類似度を算出する際に、前記判別された文または当該文を構成する文字列に対して重み付けをする
ことを特徴とする請求項1記載の文章抽出装置。 - 互いに類似する文字列を含む類義語辞書を予め格納する類義語辞書格納手段を更に具備し、
前記算出手段は、前記類義語辞書格納手段に格納されている類義語辞書に含まれる互いに類似する文字列に基づいて前記類似度を算出する
ことを特徴とする請求項1記載の文章抽出装置。 - 文章抽出装置のコンピュータによって実行されるプログラムであって、
前記コンピュータに、
文字列から構成される複数の文を含む文書を入力するステップと、
前記入力された文書に含まれる複数の文のうちの2つの文毎に、当該2つの文を第1および第2の文として含む文ペアを作成するステップと、
前記作成された文ペアの各々に含まれる第1および第2の文間の類似度を、当該第1および第2の文を構成する文字列に基づいて算出するステップと、
前記算出された類似度が予め定められた値より高い第1および第2の文を含む複数の文ペアとして、第1および第2の文ペアを含む複数の文ペアを特定するステップと、
前記特定された複数の文ペアの各々に含まれる第1および第2の文の前記入力された文書における位置に基づいて、前記特定された第1の文ペアに含まれる第1の文と前記特定された第2の文ペアに含まれる第1の文との間の距離が予め定められた値以下であり、かつ、当該第1の文ペアに含まれる第2の文と当該第2の文ペアに含まれる第2の文との間の距離が予め定められた値以下である場合に、当該入力された文書、当該第1および第2の文ペアに基づいて、当該文書における当該第1の文ペアに含まれる第1の文から当該第2の文ペアに含まれる第1の文までの間の第1の文の集合と、当該文書における当該第1の文ペアに含まれる第2の文から当該第2の文ペアに含まれる第2の文までの間の第2の文の集合とを当該文書から抽出するステップと、
前記抽出された文の集合を出力するステップと
を実行させるためのプログラム。 - 文字列から構成される複数の文を含む文書を入力する入力手段と、
前記入力された文書に含まれる複数の文のうちの2つの文毎に、当該2つの文を第1および第2の文として含む文ペアを作成する作成手段と、
前記作成された文ペアの各々に含まれる第1および第2の文間の類似度を、当該第1および第2の文を構成する文字列に基づいて算出する算出手段と、
前記算出された類似度が予め定められた値より高い第1および第2の文を含む複数の文ペアを特定する特定手段と、
前記特定された複数の文ペアの各々に含まれる第1および第2の文の前記入力された文書における位置に基づいて、当該複数の文ペアの各々に含まれる第1および第2の文を含む文の集合を当該文書から抽出する抽出手段と、
前記抽出された文の集合を出力する出力手段と
を具備し、
前記特定手段は、前記算出された類似度が予め定められた値より高い第1および第2の文を含む複数の文ペアとして、第1および第2の文ペアを含む複数の文ペアを特定し、
前記抽出手段は、前記特定された第1の文ペアに含まれる第1の文と前記特定された第2の文ペアに含まれる第1の文との間の前記入力された文書における文の数が予め定められた値以下であり、かつ、当該第1の文ペアに含まれる第2の文と当該第2の文ペアに含まれる第2の文との間の前記入力された文書における文の数が予め定められた値以下である場合に、当該入力された文書、当該第1および第2の文ペアに基づいて、当該文書における当該第1の文ペアに含まれる第1の文から当該第2の文ペアに含まれる第1の文までの間の第1の文の集合と、当該文書における当該第1の文ペアに含まれる第2の文から当該第2の文ペアに含まれる第2の文までの間の第2の文の集合とを抽出し、
前記出力手段は、前記抽出された第1および第2の文の集合を出力する
ことを特徴とする文章抽出装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011127431A JP5542744B2 (ja) | 2011-06-07 | 2011-06-07 | 文章抽出装置およびプログラム |
PCT/JP2012/064188 WO2012169431A1 (ja) | 2011-06-07 | 2012-05-31 | 文章抽出装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011127431A JP5542744B2 (ja) | 2011-06-07 | 2011-06-07 | 文章抽出装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012256107A JP2012256107A (ja) | 2012-12-27 |
JP5542744B2 true JP5542744B2 (ja) | 2014-07-09 |
Family
ID=47295997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011127431A Active JP5542744B2 (ja) | 2011-06-07 | 2011-06-07 | 文章抽出装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5542744B2 (ja) |
WO (1) | WO2012169431A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012256197A (ja) | 2011-06-08 | 2012-12-27 | Toshiba Corp | 表記ゆれ検出装置及び表記ゆれ検出プログラム |
JP6150291B2 (ja) * | 2013-10-08 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | 矛盾表現収集装置及びそのためのコンピュータプログラム |
CN111125301B (zh) * | 2019-11-22 | 2023-07-14 | 泰康保险集团股份有限公司 | 文本方法及装置、电子设备和计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282289A (ja) * | 1992-03-31 | 1993-10-29 | Toshiba Corp | 文書作成装置 |
-
2011
- 2011-06-07 JP JP2011127431A patent/JP5542744B2/ja active Active
-
2012
- 2012-05-31 WO PCT/JP2012/064188 patent/WO2012169431A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2012256107A (ja) | 2012-12-27 |
WO2012169431A1 (ja) | 2012-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11222167B2 (en) | Generating structured text summaries of digital documents using interactive collaboration | |
KR101321309B1 (ko) | 문서 내의 목록들의 재구성 | |
US20160147736A1 (en) | Creating ontologies by analyzing natural language texts | |
CA2945458C (en) | Constraint extraction from natural language text for test data generation | |
CN106708799B (zh) | 一种文本纠错方法、装置及终端 | |
JP6870421B2 (ja) | 判定プログラム、判定装置および判定方法 | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
KR101975419B1 (ko) | 빅데이터 분석을 위한 비정형 텍스트 데이터의 용어 군집화 장치 및 방법 | |
CN113254593B (zh) | 文本摘要生成方法、装置、计算机设备及存储介质 | |
JP2017041171A (ja) | テストシナリオ生成支援装置およびテストシナリオ生成支援方法 | |
JP5542744B2 (ja) | 文章抽出装置およびプログラム | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
Audichya et al. | Stanza type identification using systematization of versification system of Hindi poetry | |
CN114912425A (zh) | 演示文稿生成方法及装置 | |
JPWO2013128684A1 (ja) | 辞書生成装置、方法、及びプログラム | |
JP2010061176A (ja) | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム | |
KR20230057114A (ko) | 기술 문서 데이터 베이스를 통한 키워드 도출 방법 및 장치 | |
JP2008112363A (ja) | 文書処理装置および文書処理プログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP4856573B2 (ja) | 要約文生成装置及び要約文生成プログラム | |
JP2021039488A (ja) | 辞書作成装置及び辞書作成方法 | |
KR101835994B1 (ko) | 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치 | |
KR20230134711A (ko) | 산학 연계 프로젝트를 위한 연구자 매칭 장치, 매칭 방법 및 컴퓨터 프로그램 | |
JP4671440B2 (ja) | 評判関係抽出装置、その方法およびプログラム | |
JPH03278270A (ja) | 抄録文作成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131029 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131205 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131212 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5542744 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |