JP2009217802A - 文書処理装置、文書処理プログラムおよび記録媒体 - Google Patents
文書処理装置、文書処理プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2009217802A JP2009217802A JP2008176387A JP2008176387A JP2009217802A JP 2009217802 A JP2009217802 A JP 2009217802A JP 2008176387 A JP2008176387 A JP 2008176387A JP 2008176387 A JP2008176387 A JP 2008176387A JP 2009217802 A JP2009217802 A JP 2009217802A
- Authority
- JP
- Japan
- Prior art keywords
- importance
- word
- document
- sentence
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】 入力部11によって文書が入力されると、前処理部12が入力された文書を複数の単語に分離する。重要度算出部14は、単語の頻度に基づく特徴値を算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する。ユーザによってキーワードが入力された場合は、単語の頻度およびキーワードに基づく特徴値を算出し、算出した特徴値に基づいて文の重要度を算出する。要約生成部15は、算出された文の重要度に基づいて、文の重要度が高い順に所定数の文を選択して、入力された文書の要約を生成し、表示部16は、生成された要約を表示する。
【選択図】 図2
Description
前記入力部により入力された文書を複数の単語に分離する前処理部と、
前記前処理部で分離された単語の少なくとも頻度に基づく特徴値を算出し、前記算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する重要度算出部と、
前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成する要約生成部と、
前記要約生成部により生成された要約を表示する表示部と、
前記表示部により表示された要約に基づいて単語を入力する単語入力部とを備え、
前記要約生成部により生成された入力文書の要約を、前記表示部により表示したのち、
前記単語入力部により単語が入力されると、前記重要度算出部は、単語の頻度および入力された単語に基づく特徴値を再算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、前記表示部は、前記要約生成部により生成された要約を再表示することを特徴とする文書処理装置である。
前記重要度算出部は、前記タイトルに含まれる単語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする。
図1は、文書処理装置10の機械的構成を示すブロック図である。文書処理装置10は、プロセッサ4と、プロセッサ4が実際の処理を行うためのソフトウェアなどを格納する外部記憶装置5とを含む。
文書処理装置10は、入力部11、前処理部12、分類部13、重要度算出部14、要約生成部15、表示部16および文法辞書・類義語辞書17、分類辞書18を含んで構成される。
重要度は、主題重要度(TH)とロケーション重要度(LI)とからなり、主題重要度は、頻出度(TF)、タイトル語(TI)、手がかり語(CW)、ストップ語(SW)、キーワード(KW)などの特徴で構成され、ロケーション重要度は、ロケーション(LC)、サブロケーション(SL)の特徴で構成される。
・頻出度(TF)
主題重要度を構成する特徴の1つである頻出度について説明する。
TFs=(ΣFRi×W/maxFR)/LGs …(1)
各単語に対して統計を行う前に単語の意味の集結と、単語の意味の曖昧性特定を行うことが好ましい。
主題重要度を構成する特徴の1つであるタイトル語について説明する。
・キーワード(KW)
主題重要度を構成する特徴の1つであるキーワードについて説明する。
主題重要度を構成する特徴の1つである手がかり語について説明する。
主題重要度を構成する特徴の1つであるストップ語について説明する。
THi=W1TFi+W2TIi+W3KWi+W4CWi …(2)
・ロケーション(LC)
ロケーション重要度を構成する特徴の1つであるロケーションについて説明する。
ロケーション重要度を構成する特徴の1つであるサブロケーションについて説明する。
LIk=W5LCk+W6SLk …(3)
ここで、W5,W6は、それぞれ特徴LC,SLに対する重みを示す。
S=ΣTHi×Ci×R/TN+ΣLIk×Ck×(1−R)/LN…(4)
memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリなどの記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウエアである文書処理装置10の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記文書処理装置10に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
図10は、要約生成処理の対象となる文書の一例を示す図である。
図11は、前処理部12、分類部13による処理結果を示す図である。前処理部12により全てが単語に分離され、各単語の品詞が分類される。
2 イメージスキャナ
3 表示装置
4 プロセッサ
5 外部記憶装置
10 文書処理装置
11 入力部
12 前処理部
13 分類部
14 重要度算出部
15 要約生成部
16 表示部
17 文法辞書・類義語辞書
18 分類辞書
20 インターフェイス
21 元文書表示領域
22 要約表示領域
23 ファイルオープンボタン
24 設定ボタン
25 キーワード候補一覧表示領域
26 キーワード表示領域
27 圧縮率設定スライダー
28 処理開始ボタン
29 キーワード入力領域
30 設定フォーム
Claims (7)
- 文書を入力する入力部と、
前記入力部により入力された文書を複数の単語に分離する前処理部と、
前記前処理部で分離された単語の少なくとも頻度に基づく特徴値を算出し、前記算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出する重要度算出部と、
前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成する要約生成部と、
前記要約生成部により生成された要約を表示する表示部と、
前記表示部により表示された要約に基づいて単語を入力する単語入力部とを備え、
前記要約生成部により生成された入力文書の要約を、前記表示部により表示したのち、
前記単語入力部により単語が入力されると、前記重要度算出部は、単語の頻度および入力された単語に基づく特徴値を再算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を選択し、入力された文書の要約を生成し、前記表示部は、前記要約生成部により生成された要約を再表示することを特徴とする文書処理装置。 - 前記文書は、複数の文で構成される文書本体とタイトルとで構成され、
前記重要度算出部は、前記タイトルに含まれる単語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする請求項1記載の文書処理装置。 - 前記重要度算出部は、予め定める手がかり語に基づく特徴値をさらに算出し、算出した特徴値に基づいて文の重要度を算出することを特徴とする請求項1記載の文書処理装置。
- 前記単語入力部は、前記前処理部によって分離された単語の中から選択することで特定の単語を入力することを特徴とする請求項1記載の文書処理装置。
- 前記単語入力部によって単語が再度入力されると、前記重要度算出部は、単語の頻度および入力された単語に基づく特徴値を再度算出し、算出した特徴値に基づいて複数の単語で構成される文の重要度を文ごとに再度算出し、前記要約生成部は、前記重要度算出部により算出された文ごとの重要度に基づいて、文の重要度が高い順に所定数の文を再度選択し、入力された文書の要約を再度生成し、前記表示部は、前記要約生成部により生成された要約を再度表示することを特徴とする請求項1記載の文書処理装置。
- コンピュータを請求項1記載の文書処理装置として機能させるための文書処理プログラム。
- コンピュータを請求項1記載の文書装置として機能させるための文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100065570A CN101526938B (zh) | 2008-03-06 | 2008-03-06 | 文档处理装置 |
CN200810006557.0 | 2008-03-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009217802A true JP2009217802A (ja) | 2009-09-24 |
JP4861375B2 JP4861375B2 (ja) | 2012-01-25 |
Family
ID=41094805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008176387A Active JP4861375B2 (ja) | 2008-03-06 | 2008-07-04 | 文書処理装置、文書処理プログラムおよび記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4861375B2 (ja) |
CN (1) | CN101526938B (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013187555A1 (ko) * | 2012-06-11 | 2013-12-19 | 에스케이플래닛 주식회사 | 데이터 공유 서비스 시스템, 데이터 공유 서비스를 위한 장치 및 방법 |
JP2014241034A (ja) * | 2013-06-11 | 2014-12-25 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文を検索する装置、方法およびプログラム |
JP2017174059A (ja) * | 2016-03-23 | 2017-09-28 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP2019120970A (ja) * | 2017-12-28 | 2019-07-22 | コニカミノルタ株式会社 | 文書スコアリング装置、プログラム |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101656245B1 (ko) * | 2015-09-09 | 2016-09-09 | 주식회사 위버플 | 문장 추출 방법 및 시스템 |
CN107229939B (zh) * | 2016-03-24 | 2020-12-04 | 北大方正集团有限公司 | 相似文档的判定方法和装置 |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
CN107562723A (zh) * | 2017-08-24 | 2018-01-09 | 网易乐得科技有限公司 | 会议处理方法、介质、装置和计算设备 |
CN110781291A (zh) * | 2019-10-25 | 2020-02-11 | 北京市计算中心 | 一种文本摘要提取方法、装置、服务器及可读存储介质 |
CN112541073B (zh) * | 2020-12-15 | 2022-12-06 | 科大讯飞股份有限公司 | 一种文本摘要生成方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207891A (ja) * | 1997-01-17 | 1998-08-07 | Fujitsu Ltd | 文書要約装置およびその方法 |
JPH11219361A (ja) * | 1998-02-02 | 1999-08-10 | Fujitsu Ltd | 文書閲覧装置およびそのプログラムを格納した記憶媒体 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1145899C (zh) * | 2000-09-07 | 2004-04-14 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
CN1536483A (zh) * | 2003-04-04 | 2004-10-13 | 陈文中 | 网络信息抽取及处理的方法及系统 |
-
2008
- 2008-03-06 CN CN2008100065570A patent/CN101526938B/zh not_active Expired - Fee Related
- 2008-07-04 JP JP2008176387A patent/JP4861375B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207891A (ja) * | 1997-01-17 | 1998-08-07 | Fujitsu Ltd | 文書要約装置およびその方法 |
JPH11219361A (ja) * | 1998-02-02 | 1999-08-10 | Fujitsu Ltd | 文書閲覧装置およびそのプログラムを格納した記憶媒体 |
Non-Patent Citations (1)
Title |
---|
奥村 学: "3.1 重要文抽出による要約", テキスト自動要約, vol. 第1版, JPN6011001334, 25 March 2005 (2005-03-25), pages 21 - 40, ISSN: 0001825383 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013187555A1 (ko) * | 2012-06-11 | 2013-12-19 | 에스케이플래닛 주식회사 | 데이터 공유 서비스 시스템, 데이터 공유 서비스를 위한 장치 및 방법 |
US11023660B2 (en) | 2012-06-11 | 2021-06-01 | Sk Planet Co., Ltd. | Terminal device for data sharing service using instant messenger |
JP2014241034A (ja) * | 2013-06-11 | 2014-12-25 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文を検索する装置、方法およびプログラム |
US9767186B2 (en) | 2013-06-11 | 2017-09-19 | International Business Machines Corporation | Retrieving a specific sentence from a document |
JP2017174059A (ja) * | 2016-03-23 | 2017-09-28 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP2019120970A (ja) * | 2017-12-28 | 2019-07-22 | コニカミノルタ株式会社 | 文書スコアリング装置、プログラム |
JP7112650B2 (ja) | 2017-12-28 | 2022-08-04 | コニカミノルタ株式会社 | 文書スコアリング装置、プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN101526938B (zh) | 2011-12-28 |
CN101526938A (zh) | 2009-09-09 |
JP4861375B2 (ja) | 2012-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4861375B2 (ja) | 文書処理装置、文書処理プログラムおよび記録媒体 | |
JP7421604B2 (ja) | モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
US8548243B2 (en) | Information processing device, information processing method, and program | |
CN109657054A (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN114254158B (zh) | 视频生成方法及其装置、神经网络的训练方法及其装置 | |
JP5620814B2 (ja) | トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム | |
US20080243510A1 (en) | Overlapping screen reading of non-sequential text | |
JP2007079736A (ja) | データ編集装置、データ編集方法およびデータ編集プログラム | |
JP2005122665A (ja) | 電子機器装置、関連語データベースの更新方法、プログラム | |
JP2022061935A (ja) | サーバおよびデータ割り当て方法 | |
JP6900334B2 (ja) | 映像出力装置、映像出力方法および映像出力プログラム | |
JP2002297635A (ja) | 要約文作成システム及びその方法 | |
TWI288335B (en) | Method to automatically summarize Chinese digital documents | |
JP2004151527A (ja) | 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP6451414B2 (ja) | 情報処理装置、要約文編集方法、及びプログラム | |
WO2006003692A1 (ja) | 情報検索端末 | |
JP7474295B2 (ja) | 情報処理システム、情報処理方法、およびプログラム | |
JP7230085B2 (ja) | 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
JP6490989B2 (ja) | データ分析システム、データ分析方法、およびデータ分析プログラム | |
KR102422844B1 (ko) | 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법 | |
JP7295429B2 (ja) | 文書処理プログラム、文書処理方法および文書処理装置 | |
JP2002073644A (ja) | 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体 | |
JP2011061263A (ja) | ダイジェスト映像作成装置およびダイジェスト映像作成プログラム | |
JP2004199395A (ja) | 情報検索端末 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111011 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4861375 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141111 Year of fee payment: 3 |