JP4861375B2 - 文書処理装置、文書処理プログラムおよび記録媒体 - Google Patents
文書処理装置、文書処理プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP4861375B2 JP4861375B2 JP2008176387A JP2008176387A JP4861375B2 JP 4861375 B2 JP4861375 B2 JP 4861375B2 JP 2008176387 A JP2008176387 A JP 2008176387A JP 2008176387 A JP2008176387 A JP 2008176387A JP 4861375 B2 JP4861375 B2 JP 4861375B2
- Authority
- JP
- Japan
- Prior art keywords
- importance
- document
- sentence
- keyword
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
前記入力部により入力された文書を複数の単語に分離する前処理部と、
前記前処理部で分離された単語の頻度に基づく特徴値を算出し、算出した前記頻度に基づく特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する重要度算出部と、
前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成する要約生成部と、
前記要約生成部により生成された要約を表示する表示部と、
キーワードを入力するキーワード入力部とを備え、
前記要約生成部により生成された入力文書の要約を、前記表示部により表示したのち、
前記キーワード入力部によりキーワードが入力されると、前記重要度算出部は、入力されたキーワードに基づく特徴値を算出し、前記頻度に基づく特徴値および算出した前記キーワードに基づく特徴値に基づいて複数の単語で構成される文の重要度を文ごとに再算出し、前記要約生成部は、前記重要度算出部により再算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、前記表示部は、前記要約生成部により生成された要約を再表示するように構成され、
前記キーワード入力部は、前記文書中から前記頻度が高い順に単語を抽出してキーワード候補として前記表示部に一覧表示させ、一覧表示された単語の中から選択された単語をキーワードとして入力することを特徴とする文書処理装置である。
前記重要度算出部は、前記タイトルに含まれる単語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする。
図1は、文書処理装置10の機械的構成を示すブロック図である。文書処理装置10は、プロセッサ4と、プロセッサ4が実際の処理を行うためのソフトウェアなどを格納する外部記憶装置5とを含む。
文書処理装置10は、入力部11、前処理部12、分類部13、重要度算出部14、要約生成部15、表示部16および文法辞書・類義語辞書17、分類辞書18を含んで構成される。
重要度は、主題重要度(TH)とロケーション重要度(LI)とからなり、主題重要度は、頻出度(TF)、タイトル語(TI)、手がかり語(CW)、ストップ語(SW)、キーワード(KW)などの特徴で構成され、ロケーション重要度は、ロケーション(LC)、サブロケーション(SL)の特徴で構成される。
・頻出度(TF)
主題重要度を構成する特徴の1つである頻出度について説明する。
TFs=(ΣFRi×W/maxFR)/LGs …(1)
各単語に対して統計を行う前に単語の意味の集結と、単語の意味の曖昧性特定を行うことが好ましい。
主題重要度を構成する特徴の1つであるタイトル語について説明する。
・キーワード(KW)
主題重要度を構成する特徴の1つであるキーワードについて説明する。
主題重要度を構成する特徴の1つである手がかり語について説明する。
主題重要度を構成する特徴の1つであるストップ語について説明する。
THi=W1TFi+W2TIi+W3KWi+W4CWi …(2)
・ロケーション(LC)
ロケーション重要度を構成する特徴の1つであるロケーションについて説明する。
ロケーション重要度を構成する特徴の1つであるサブロケーションについて説明する。
LIk=W5LCk+W6SLk …(3)
ここで、W5,W6は、それぞれ特徴LC,SLに対する重みを示す。
S=ΣTHi×Ci×R/TN+ΣLIk×Ck×(1−R)/LN…(4)
memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリなどの記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウエアである文書処理装置10の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記文書処理装置10に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
図10は、要約生成処理の対象となる文書の一例を示す図である。
図11は、前処理部12、分類部13による処理結果を示す図である。前処理部12により全てが単語に分離され、各単語の品詞が分類される。
2 イメージスキャナ
3 表示装置
4 プロセッサ
5 外部記憶装置
10 文書処理装置
11 入力部
12 前処理部
13 分類部
14 重要度算出部
15 要約生成部
16 表示部
17 文法辞書・類義語辞書
18 分類辞書
20 インターフェイス
21 元文書表示領域
22 要約表示領域
23 ファイルオープンボタン
24 設定ボタン
25 キーワード候補一覧表示領域
26 キーワード表示領域
27 圧縮率設定スライダー
28 処理開始ボタン
29 キーワード入力領域
30 設定フォーム
Claims (7)
- 文書を入力する入力部と、
前記入力部により入力された文書を複数の単語に分離する前処理部と、
前記前処理部で分離された単語の頻度に基づく特徴値を算出し、算出した前記頻度に基づく特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する重要度算出部と、
前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成する要約生成部と、
前記要約生成部により生成された要約を表示する表示部と、
キーワードを入力するキーワード入力部とを備え、
前記要約生成部により生成された入力文書の要約を、前記表示部により表示したのち、
前記キーワード入力部によりキーワードが入力されると、前記重要度算出部は、入力されたキーワードに基づく特徴値を算出し、前記頻度に基づく特徴値および算出した前記キーワードに基づく特徴値に基づいて複数の単語で構成される文の重要度を文ごとに再算出し、前記要約生成部は、前記重要度算出部により再算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、前記表示部は、前記要約生成部により生成された要約を再表示するように構成され、
前記キーワード入力部は、前記文書中から前記頻度が高い順に単語を抽出してキーワード候補として前記表示部に一覧表示させ、一覧表示された単語の中から選択された単語をキーワードとして入力することを特徴とする文書処理装置。 - 前記文書は、複数の文で構成される文書本体とタイトルとで構成され、
前記重要度算出部は、前記タイトルに含まれる単語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする請求項1記載の文書処理装置。 - 前記重要度算出部は、予め定める手がかり語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする請求項1記載の文書処理装置。
- 前記キーワード入力部は、前記前処理部によって分離された単語の中から選択することで特定のキーワードを入力することを特徴とする請求項1記載の文書処理装置。
- 前記キーワード入力部によってキーワードが再度入力されると、前記重要度算出部は、入力されたキーワードに基づく特徴値を再度算出し、前記頻度に基づく特徴値および算出した前記キーワードに基づく特徴値に基づいて複数の単語で構成される文の重要度を文ごとに再度算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を再度選択し、入力された文書の要約を再度生成し、前記表示部は、前記要約生成部により生成された要約を再度表示することを特徴とする請求項1記載の文書処理装置。
- コンピュータを請求項1記載の文書処理装置として機能させるための文書処理プログラム。
- コンピュータを請求項1記載の文書装置として機能させるための文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100065570A CN101526938B (zh) | 2008-03-06 | 2008-03-06 | 文档处理装置 |
CN200810006557.0 | 2008-03-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009217802A JP2009217802A (ja) | 2009-09-24 |
JP4861375B2 true JP4861375B2 (ja) | 2012-01-25 |
Family
ID=41094805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008176387A Active JP4861375B2 (ja) | 2008-03-06 | 2008-07-04 | 文書処理装置、文書処理プログラムおよび記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4861375B2 (ja) |
CN (1) | CN101526938B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101978297B1 (ko) | 2012-06-11 | 2019-08-28 | 에스케이플래닛 주식회사 | 데이터 공유 서비스 시스템, 데이터 공유 서비스를 위한 장치 및 방법 |
JP6099046B2 (ja) * | 2013-06-11 | 2017-03-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文を検索する装置および方法 |
KR101656245B1 (ko) * | 2015-09-09 | 2016-09-09 | 주식회사 위버플 | 문장 추출 방법 및 시스템 |
JP6524008B2 (ja) * | 2016-03-23 | 2019-06-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
CN107229939B (zh) * | 2016-03-24 | 2020-12-04 | 北大方正集团有限公司 | 相似文档的判定方法和装置 |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
CN107562723A (zh) * | 2017-08-24 | 2018-01-09 | 网易乐得科技有限公司 | 会议处理方法、介质、装置和计算设备 |
JP7112650B2 (ja) * | 2017-12-28 | 2022-08-04 | コニカミノルタ株式会社 | 文書スコアリング装置、プログラム |
CN110781291A (zh) * | 2019-10-25 | 2020-02-11 | 北京市计算中心 | 一种文本摘要提取方法、装置、服务器及可读存储介质 |
CN112541073B (zh) * | 2020-12-15 | 2022-12-06 | 科大讯飞股份有限公司 | 一种文本摘要生成方法、装置、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3579204B2 (ja) * | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
JP3718044B2 (ja) * | 1998-02-02 | 2005-11-16 | 富士通株式会社 | 文書閲覧装置およびそのプログラムを格納した記憶媒体 |
CN1145899C (zh) * | 2000-09-07 | 2004-04-14 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
CN1536483A (zh) * | 2003-04-04 | 2004-10-13 | 陈文中 | 网络信息抽取及处理的方法及系统 |
-
2008
- 2008-03-06 CN CN2008100065570A patent/CN101526938B/zh not_active Expired - Fee Related
- 2008-07-04 JP JP2008176387A patent/JP4861375B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN101526938A (zh) | 2009-09-09 |
JP2009217802A (ja) | 2009-09-24 |
CN101526938B (zh) | 2011-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4861375B2 (ja) | 文書処理装置、文書処理プログラムおよび記録媒体 | |
JP7421604B2 (ja) | モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
JP4148522B2 (ja) | 表現検出システム、表現検出方法、及びプログラム | |
CN109657054A (zh) | 摘要生成方法、装置、服务器及存储介质 | |
WO2001001390A1 (fr) | Trieuse-liseuse electronique | |
CN115114919A (zh) | 呈现提示信息的方法和装置以及存储介质 | |
CN114254158B (zh) | 视频生成方法及其装置、神经网络的训练方法及其装置 | |
JP2004318510A (ja) | 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法 | |
JP5620814B2 (ja) | トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム | |
JP5722375B2 (ja) | 文末表現変換装置、方法、及びプログラム | |
KR102350359B1 (ko) | 음성 인식 알고리즘을 이용한 영상 편집 방법 | |
CN114722206A (zh) | 一种基于关键词筛选和注意力机制的极短文本分类方法 | |
JP3614765B2 (ja) | 概念辞書拡張装置 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP2002297635A (ja) | 要約文作成システム及びその方法 | |
JP2001060199A (ja) | 文書分類装置、文書分類方法および文書分類プログラムを格納したコンピュータ読取り可能な記録媒体 | |
JP2004151527A (ja) | 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム | |
TWI288335B (en) | Method to automatically summarize Chinese digital documents | |
JP7474295B2 (ja) | 情報処理システム、情報処理方法、およびプログラム | |
JP2009140411A (ja) | 文章要約装置および文章要約方法 | |
JP6451414B2 (ja) | 情報処理装置、要約文編集方法、及びプログラム | |
JP6490989B2 (ja) | データ分析システム、データ分析方法、およびデータ分析プログラム | |
KR102422844B1 (ko) | 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 | |
JP2002073644A (ja) | 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体 | |
JP7295429B2 (ja) | 文書処理プログラム、文書処理方法および文書処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111011 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4861375 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141111 Year of fee payment: 3 |