JP5066147B2 - 文書処理装置およびプログラム - Google Patents
文書処理装置およびプログラム Download PDFInfo
- Publication number
- JP5066147B2 JP5066147B2 JP2009189280A JP2009189280A JP5066147B2 JP 5066147 B2 JP5066147 B2 JP 5066147B2 JP 2009189280 A JP2009189280 A JP 2009189280A JP 2009189280 A JP2009189280 A JP 2009189280A JP 5066147 B2 JP5066147 B2 JP 5066147B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- classification
- evaluation value
- document
- holding unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 56
- 238000011156 evaluation Methods 0.000 claims description 120
- 238000004364 calculation method Methods 0.000 claims description 71
- 230000009466 transformation Effects 0.000 claims description 5
- 230000000202 analgesic effect Effects 0.000 description 110
- 230000003110 anti-inflammatory effect Effects 0.000 description 105
- 238000000034 method Methods 0.000 description 65
- 238000004458 analytical method Methods 0.000 description 55
- 230000014509 gene expression Effects 0.000 description 46
- 230000000877 morphologic effect Effects 0.000 description 24
- 238000012423 maintenance Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 239000000730 antalgic agent Substances 0.000 description 5
- 239000002245 particle Substances 0.000 description 4
- 239000002260 anti-inflammatory agent Substances 0.000 description 3
- 230000001741 anti-phlogistic effect Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009610 hypersensitivity Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000000041 non-steroidal anti-inflammatory agent Substances 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000010474 transient expression Effects 0.000 description 1
Images
Description
まず、図1および図2を参照して、本発明の第1の実施形態について説明する。図1は、本実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、文書処理装置30を構成する。
次に、図16を参照して、本発明の第2の実施形態について説明する。図16は、本実施形態に係る文書処理装置の主として機能構成を示すブロック図である。なお、前述した図2と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2と異なる部分について主に述べる。
Claims (4)
- 文書毎に、当該文書が属する分類を示す分類情報および当該文書に含まれる文字列を示すインデックスを対応づけて予め格納する分類別文書格納手段と、
ユーザによって指定された文であって、複数の単語から構成される第1の文字列を含む文を入力する入力手段と、
前記入力された文を解析することにより、当該文に含まれる第1の文字列を構成する複数の単語を抽出する抽出手段と、
前記抽出された複数の単語に基づいて、予め定められた条件に合致する複数の第2の文字列を取得する取得手段と、
前記取得された複数の第2の文字列を保持する文字列保持手段と、
前記文字列保持手段に保持された第2の文字列毎に、当該第2の文字列と一致するインデックスおよび当該第2の文字列を含むインデックスを前記分類別文書格納手段から検索する検索手段と、
前記検索されたインデックスに基づいて、前記文字列保持手段に保持された第2の文字列の各々の評価値を、当該インデックスに対応づけて前記分類別文書格納手段に格納されている分類情報によって示される分類毎に算出する評価値算出手段と、
前記算出された評価値が予め定められた第1の値以上である分類の数が予め定められた第2の値以上である前記文字列保持手段に保持された第2の文字列のうち、当該第2の文字列の長さが最も長い第2の文字列を前記入力された文から切り出される文字列として決定する決定手段と
を具備し、
前記評価値算出手段は、
前記検索されたインデックスの数を示す第1の出現回数を算出する第1の算出手段と、
前記検索されたインデックスのうち、前記文字列保持手段に保持された第2の文字列を含むインデックスの数を示す第2の出現回数を算出する第2の算出手段と、
前記検索されたインデックスのうち、異なるインデックスの数を示す異なり数を算出する第3の算出手段と
を含み、
前記第1の算出手段によって算出された第1の出現回数、前記第2の算出手段によって算出された第2の出現回数および前記第3の算出手段によって算出された異なり数を用いて前記評価値を算出する
ことを特徴とする文書処理装置。 - 文字列を変形するための予め定められた条件に基づいて、前記文字列保持手段に保持された第2の文字列を変形する文字列変形手段を更に具備し、
前記文字列保持手段は、前記文字列変形手段によって変形された第2の文字列を更に保持する
ことを特徴とする請求項1記載の文書処理装置。 - 前記取得手段は、前記抽出された複数の単語において、前記第1の文字列を構成する任意の単語から当該第1の文字列を構成する末尾の単語までの単語から構成される第2の文字列の各々を取得することを特徴とする請求項1記載の文書処理装置。
- 文書毎に、当該文書が属する分類を示す分類情報および当該文書に含まれる文字列を示すインデックスを対応づけて予め格納する分類別文書格納手段と文字列保持手段とを有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行されるプログラムであって、
前記コンピュータに、
ユーザによって指定された文であって、複数の単語から構成される第1の文字列を含む文を入力するステップと、
前記入力された文を解析することにより、当該文に含まれる第1の文字列を構成する複数の単語を抽出するステップと、
前記抽出された複数の単語に基づいて、予め定められた条件に合致する複数の第2の文字列を取得するステップと、
前記取得された複数の第2の文字列を前記文字列保持手段に保持させるステップと、
前記文字列保持手段に保持された第2の第2の文字列毎に、当該第2の文字列を含むインデックスを前記分類別文書格納手段から検索するステップと、
前記検索されたインデックスに基づいて、前記文字列保持手段に保持された第2の文字列の各々の評価値を、当該インデックスに対応づけて前記分類別文書格納手段に格納されている分類情報によって示される分類毎に算出するステップと、
前記算出された評価値が予め定められた第1の値以上である分類の数が予め定められた第2の値以上である前記文字列保持手段に保持された第2の文字列のうち、当該第2の文字列を構成する単語の数が最も多い第2の文字列を前記入力された文から切り出される文字列として決定するステップと
を実行させ、
前記評価値を分類毎に算出するステップにおいて、前記検索されたインデックスの数を示す第1の出現回数を算出し、前記検索されたインデックスのうち、前記文字列保持手段に保持された第2の文字列を含むインデックスの数を示す第2の出現回数を算出し、前記検索されたインデックスのうち、異なるインデックスの数を示す異なり数を算出し、前記算出された第1の出現回数、前記算出された第2の出現回数および前記算出された異なり数を用いて前記評価値を算出する
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009189280A JP5066147B2 (ja) | 2009-08-18 | 2009-08-18 | 文書処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009189280A JP5066147B2 (ja) | 2009-08-18 | 2009-08-18 | 文書処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011039985A JP2011039985A (ja) | 2011-02-24 |
JP5066147B2 true JP5066147B2 (ja) | 2012-11-07 |
Family
ID=43767656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009189280A Expired - Fee Related JP5066147B2 (ja) | 2009-08-18 | 2009-08-18 | 文書処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5066147B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016018279A (ja) * | 2014-07-04 | 2016-02-01 | 富士通株式会社 | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004318586A (ja) * | 2003-04-17 | 2004-11-11 | Canon Inc | 文字認識手段を具備する情報検索装置システム |
JP4510483B2 (ja) * | 2004-02-23 | 2010-07-21 | 株式会社エヌ・ティ・ティ・データ | 情報検索装置 |
JP4747752B2 (ja) * | 2005-09-14 | 2011-08-17 | 日本電気株式会社 | 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム |
JP4236057B2 (ja) * | 2006-03-24 | 2009-03-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 新たな複合語を抽出するシステム |
JP4961869B2 (ja) * | 2006-07-11 | 2012-06-27 | 沖電気工業株式会社 | 専門用語判別装置および専門用語判別方法 |
-
2009
- 2009-08-18 JP JP2009189280A patent/JP5066147B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011039985A (ja) | 2011-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
JP2015506515A (ja) | タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体 | |
CN111104488B (zh) | 检索和相似度分析一体化的方法、装置和存储介质 | |
US11573989B2 (en) | Corpus specific generative query completion assistant | |
JP6551968B2 (ja) | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム | |
JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
JP4795856B2 (ja) | クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5204203B2 (ja) | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム | |
Paul et al. | An affix removal stemmer for natural language text in nepali | |
JP2008117351A (ja) | 検索システム | |
JP5066147B2 (ja) | 文書処理装置およびプログラム | |
Thangarasu et al. | Design and development of stemmer for Tamil language: cluster analysis | |
Fatima et al. | STEMUR: An automated word conflation algorithm for the Urdu language | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP6260678B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP2000259653A (ja) | 音声認識装置及び音声認識方法 | |
Stehouwer et al. | Unlocking language archives using search | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
JP2012243129A (ja) | 話題語獲得装置、方法、及びプログラム | |
JP2009217406A (ja) | 文書検索装置及び方法、並びに、プログラム | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP2000322416A (ja) | 文書検索装置 | |
JP2011244849A (ja) | 類似症例検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120717 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5066147 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150817 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |