JP2007094838A - 文書処理装置および文書処理方法 - Google Patents
文書処理装置および文書処理方法 Download PDFInfo
- Publication number
- JP2007094838A JP2007094838A JP2005284585A JP2005284585A JP2007094838A JP 2007094838 A JP2007094838 A JP 2007094838A JP 2005284585 A JP2005284585 A JP 2005284585A JP 2005284585 A JP2005284585 A JP 2005284585A JP 2007094838 A JP2007094838 A JP 2007094838A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- document
- unit
- calculated
- hash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 文書処理装置100は,分割部155と文ハッシュ計算部165と分割文ハッシュテーブル170aと文ハッシュ検索部175と抽出部180とを含んで構成される。分割文ハッシュテーブル170aには,ハッシュ値と出現頻度とが蓄積されている。分割部155は,入力文書を各文に分割する。文ハッシュ計算部165は,ハッシュ関数を用いて分割された各文からハッシュ値を求める。文ハッシュ検索部175は,求められた各文のハッシュ値と分割文ハッシュテーブル170aに記憶されたハッシュ値とをマッチング処理し,一致したハッシュ値に対応する出現度数を検出する。抽出部180は,検出された出現頻度に基づいて,各文のハッシュ値のうちから1または2以上のハッシュ値を選択し,選択されたハッシュ値に対する各文を入力文書の要約として抽出する。
【選択図】 図2
Description
(文書処理装置100のハードウエア構成)
まず,第1実施形態にかかる文書処理装置のハードウエア構成について,図1を参照しながら説明する。文書処理装置100は,HDD(Hard Disk Drive)105,ROM(Read Only Memory)110,RAM(Random Access Memory)115,プロセッサ120,インターフェース125およびバス130を含んで構成される。
つぎに,文書処理装置100の機能構成について,図2を参照しながら説明する。文書処理装置100は,入力部150,分割部155,正規化部160,文ハッシュ計算部165,記憶部170,文ハッシュ検索部175,抽出部180および出力部185の各ブロックにて示される機能を有している。
つぎに,本実施形態にかかる文書処理装置100の具体的動作について,図4を参照しながら説明する。図4は,本実施形態にかかる文書処理装置100が実行する重要文抽出処理を示したフローチャートである。なお,この重要文抽出処理が実行される前に,入力部150によりテキストが入力され,記憶部170により入力されたテキストがRAM115またはHDD105に記憶されているものとする。
ここで,α:他の要因によって決定される重要度(任意)
このとき,m1=f(n1),m2=f(n2)において,
n1>n2ならば,m1≦m2となる。
つぎに,第2実施形態にかかる文書処理装置100について説明する。本実施形態にかかる文書処理装置100は,図5に示したように,分類係数テーブル170bとテキスト分類部190とが新たに追加された点で図2に示した第1実施形態にかかる文書処理装置100と機能構成上相異する。
たとえば,テキストに含まれる単語の出現回数を用いて,図7に示したように,野球(20),サッカー(24),経済(06)といったように入力テキストの分類コードを特定する方法や,図8に示したように,電子メールの受取人によって分類コードを特定する。
つぎに,本実施形態にかかる文書処理装置100の具体的動作について,図9を参照しながら説明する。図9は,本実施形態にかかる文書処理装置100が実行する重要文抽出処理を示したフローチャートである。
ここで,α:他の要因によって決定される重要度(任意)
n=Σni(i=分類係数テーブルのインデックス)
n1>n2ならば,m1≦m2となる。
m=f(1・621)+f(1.5・399)+α
つぎに,第3実施形態にかかる文書処理装置100について説明する。本実施形態にかかる文書処理装置100は,図10に示したように,全文ハッシュテーブル170cと全ハッシュ計算部195と全ハッシュ検索部199とが新たに追加された点で図2に示した第1実施形態にかかる文書処理装置100と機能構成上相異する。
つぎに,本実施形態にかかる文書処理装置100の具体的動作について,図11を参照しながら説明する。図11は,本実施形態にかかる文書処理装置100が実行する重要文抽出処理を示したフローチャートである。
120 プロセッサ
150 入力部
155 分割部
160 正規化部
165 文ハッシュ計算部
170 記憶部
170a 分割文ハッシュテーブル
170b 分類係数テーブル
170c 全文ハッシュテーブル
175 文ハッシュ検索部
180 抽出部
185 出力部
190 テキスト分類部
195 全ハッシュ計算部
199 全ハッシュ検索部
Claims (11)
- 所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶する記憶部と;
文書を所定の条件に基づいて複数の文字列に分割する分割部と;
前記所定の規則に基づいて,前記分割された各文字列から各文字列固有の計算値をそれぞれ求める計算部と;
前記計算部により求められた各計算値と前記記憶部に記憶されている計算値とを比較することにより,前記求められた各計算値に対応する出現頻度をそれぞれ検出する検索部と;
前記検出された各計算値に対応する出現頻度に基づいて,1または2以上の計算値を選択し,選択された1または2以上の計算値に対する文字列を前記文書の要約として抽出する抽出部と;を備える文書処理装置。 - 前記計算部は,
前記所定の規則としてハッシュ関数を用いて,前記各文字列から前記計算値としてのハッシュ値をそれぞれ求める請求項1に記載された文書処理装置。 - 前記抽出部は,
前記検索された各計算値に対応する出現頻度をそれぞれ比較することにより,より低い値を有する出現頻度に関連付けられて記憶されている計算値から順に1または2以上の計算値を選択する請求項1または請求項2のいずれかに記載された文書処理装置。 - 前記検索部は,
前記比較の結果,前記計算部により求められた計算値が前記記憶部に記憶されていると判定された場合には,前記求められた計算値に関連付けて記憶されている出現頻度を増加させ,前記求められた計算値が前記記憶部に記憶されていないと判定された場合には,前記求められた計算値とともに所与の値をもつ出現頻度を新たに記憶する請求項1〜3のいずれかに記載された文書処理装置。 - 前記分割部は,
前記文書を文節または文または段落のいずれかを構成する複数の文字列に分割する請求項1〜4のいずれかに記載された文書処理装置。 - 前記文書処理装置であって,さらに,
前記文書または前記分割された各文のいずれかに含まれる文字列の形式を整える正規化部を備える請求項1〜5のいずれかに記載された文書処理装置。 - 前記文書処理装置であって,さらに,
前記文書の属性を定めるテキスト分類部を備え,
前記記憶部は,
前記求められた計算値の出現頻度を文書の属性毎に複数記憶し,
前記抽出部は,
前記定められた文書の属性と前記記憶部に記憶された文書の属性との相関関係から定められる相関値をそれぞれ用いて,前記記憶部に文書の属性毎に記憶された複数の出現頻度をそれぞれ重み付けし,重み付けられた各出現頻度に基づき,1または2以上の計算値を選択する請求項1〜6のいずれかに記載された文書処理装置。 - 前記抽出部は,
前記各相関値を用いて前記計算値に対して前記文書の属性毎に記憶された複数の出現頻度にそれぞれ重み付けし,重み付けられた各出現頻度の総和を前記各計算値に対応した重要度として算出し,算出された重要度のうち高いものから順に,対応する1または2以上の計算値を選択する請求項7に記載された文書処理装置。 - 前記相関値は,
前記テキスト分類部により決定された文書の属性と前記記憶部に記憶された文書の属性との関連が小さいほど,より大きな値をもつように設定される請求項7または請求項8のいずれかに記載された文書処理装置。 - 前記計算部は,
テキストの特定部分または全部分に固有の計算値を全計算値として求め,
前記検索部は,
前記全計算値が前記記憶部に記憶されているか否かを検索し,前記全計算値が前記記憶部に記憶されていない場合,前記全計算値を,前記抽出部により前記文書の要約として抽出された文字列に関連付けて記憶し,
前記抽出部は,
前記全計算値が前記記憶部に記憶されている場合,前記分割部,前記計算部,前記検索部および前記抽出部による各動作を各部に実行させることなく,前記全計算値に関連付けて前記記憶部に記憶されている計算値に応じた文字列を前記文書の要約として抽出する請求項1〜9のいずれかに記載された文書処理装置。 - 所定の規則に基づき算出された計算値とその計算値が算出された頻度を表す出現頻度とを関連付けて記憶部に記憶し;
文書を所定の条件に基づいて複数の文字列に分割し;
前記所定の規則に基づいて,前記分割された各文字列から各文字列固有の計算値をそれぞれ求め;
前記求められた各計算値と前記記憶部に記憶されている計算値とを比較することにより,前記求められた各計算値に対応する出現頻度をそれぞれ検索し;
前記検索された各計算値に対応する各出現頻度に基づき,1または2以上の計算値を選択し,選択された1または2以上の計算値に対する文字列を前記文書の要約として抽出する文書処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005284585A JP4618083B2 (ja) | 2005-09-29 | 2005-09-29 | 文書処理装置および文書処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005284585A JP4618083B2 (ja) | 2005-09-29 | 2005-09-29 | 文書処理装置および文書処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007094838A true JP2007094838A (ja) | 2007-04-12 |
JP4618083B2 JP4618083B2 (ja) | 2011-01-26 |
Family
ID=37980468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005284585A Expired - Fee Related JP4618083B2 (ja) | 2005-09-29 | 2005-09-29 | 文書処理装置および文書処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4618083B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009045668A2 (en) * | 2007-09-28 | 2009-04-09 | Microsoft Corporation | Two-pass hash extraction of text strings |
JP2009271796A (ja) * | 2008-05-08 | 2009-11-19 | Nomura Research Institute Ltd | 文書データのノイズ除去システム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08305710A (ja) * | 1995-04-28 | 1996-11-22 | Toshiba Corp | 文書のキーワード抽出方法及び文書検索装置 |
JPH11212980A (ja) * | 1998-01-23 | 1999-08-06 | Fuji Xerox Co Ltd | インデクス作成方法および検索方法 |
JP2000090115A (ja) * | 1998-09-11 | 2000-03-31 | Fuji Xerox Co Ltd | インデクス作成方法および検索方法 |
JP2000235584A (ja) * | 1998-12-17 | 2000-08-29 | Fuji Xerox Co Ltd | 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体 |
JP2004157981A (ja) * | 2002-07-09 | 2004-06-03 | Canon Inc | 要約表現装置 |
-
2005
- 2005-09-29 JP JP2005284585A patent/JP4618083B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08305710A (ja) * | 1995-04-28 | 1996-11-22 | Toshiba Corp | 文書のキーワード抽出方法及び文書検索装置 |
JPH11212980A (ja) * | 1998-01-23 | 1999-08-06 | Fuji Xerox Co Ltd | インデクス作成方法および検索方法 |
JP2000090115A (ja) * | 1998-09-11 | 2000-03-31 | Fuji Xerox Co Ltd | インデクス作成方法および検索方法 |
JP2000235584A (ja) * | 1998-12-17 | 2000-08-29 | Fuji Xerox Co Ltd | 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体 |
JP2004157981A (ja) * | 2002-07-09 | 2004-06-03 | Canon Inc | 要約表現装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009045668A2 (en) * | 2007-09-28 | 2009-04-09 | Microsoft Corporation | Two-pass hash extraction of text strings |
WO2009045668A3 (en) * | 2007-09-28 | 2009-05-28 | Microsoft Corp | Two-pass hash extraction of text strings |
US8078454B2 (en) | 2007-09-28 | 2011-12-13 | Microsoft Corporation | Two-pass hash extraction of text strings |
RU2464630C2 (ru) * | 2007-09-28 | 2012-10-20 | Майкрософт Корпорейшн | Двухпроходное хеш извлечение текстовых строк |
JP2009271796A (ja) * | 2008-05-08 | 2009-11-19 | Nomura Research Institute Ltd | 文書データのノイズ除去システム |
Also Published As
Publication number | Publication date |
---|---|
JP4618083B2 (ja) | 2011-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US7739220B2 (en) | Context snippet generation for book search system | |
US7346487B2 (en) | Method and apparatus for identifying translations | |
US8868469B2 (en) | System and method for phrase identification | |
US9043339B2 (en) | Extracting terms from document data including text segment | |
JP5370159B2 (ja) | 情報抽出装置及び情報抽出システム | |
CN111858912A (zh) | 一种基于单篇长文本的摘要生成方法 | |
US9501557B2 (en) | Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
US7475005B2 (en) | Translation system, dictionary updating server, translation method, and program and recording medium for use therein | |
CN111160007B (zh) | 基于bert语言模型的搜索方法、装置、计算机设备及存储介质 | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 | |
JP2011008784A (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
JP4618083B2 (ja) | 文書処理装置および文書処理方法 | |
CN112528640A (zh) | 一种基于异常子图检测的领域术语自动抽取方法 | |
JP5418138B2 (ja) | 文書検索システム、情報処理装置およびプログラム | |
JP2004054882A (ja) | 類義語検索装置、方法、プログラム及び記憶媒体 | |
JP4813312B2 (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
US20110172991A1 (en) | Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program | |
JP2002183194A (ja) | 検索式生成装置およびその方法 | |
JP5339628B2 (ja) | 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ | |
JP5495425B2 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
CN113722447B (zh) | 一种基于多策略匹配的语音搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100903 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100928 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101011 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131105 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131105 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131105 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |