JP6099046B2 - 文を検索する装置および方法 - Google Patents
文を検索する装置および方法 Download PDFInfo
- Publication number
- JP6099046B2 JP6099046B2 JP2013122805A JP2013122805A JP6099046B2 JP 6099046 B2 JP6099046 B2 JP 6099046B2 JP 2013122805 A JP2013122805 A JP 2013122805A JP 2013122805 A JP2013122805 A JP 2013122805A JP 6099046 B2 JP6099046 B2 JP 6099046B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- document
- importance
- unit
- search key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000000605 extraction Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 8
- 230000008569 process Effects 0.000 description 17
- 241000282326 Felis catus Species 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000010365 information processing Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、本実施形態が適用される情報処理装置の機能構成の一例を示す図である。本実施形態が適用される情報処理装置は、電子文書を閲覧するための装置であり、パーソナルコンピュータや、タブレット型情報端末装置、いわゆるスマートフォン等の携帯型情報端末装置等を用いることができる。図1に示す情報処理装置は、処理部100と、記憶部200と、表示部300と、入力操作部400とを備える。処理部100は、処理対象である電子文書に対する処理を行う。本実施形態における処理部100の具体的な機能については後述する。記憶部200は、処理部100による処理の対象である電子文書を記憶する。また、処理部100の処理により得られたデータを記憶する。
次に、重要度計算部130による文の重要度の計算について詳細に説明する。上述したように本実施形態では、単語の出現数に基づいて、電子文書における各文の重要度が計算される。具体的には、重要度計算部130は、まず、tf−idfと呼ばれる既存のアルゴリズムを用いて電子文書に存在する各単語の重みを求める。tf−idfは、tf(term frequency)という指標と、idf(inverse document frequency)という指標の2つの指標を用いて求められる。ここで、tfとは、電子文書中における各単語の出現頻度を示す指標である。これは、電子文書中に高い頻度で出現する単語は重要な単語であるという考えに基づいている。また、idfとは、電子文書中において、ある単語が含まれる文の数を示す指標である。これは、多くの文で使用されている単語よりも、少ない文で使用されている単語の方が、その文の特徴をよく表すという考えに基づいている。
次に、文書処理部120による文の検索処理について説明する。本実施形態において、文書処理部120は、受け付け部110により受け付けた検索キー(キーワード)に基づき、その検索キーを含む文を処理対象の電子文書中から抽出する。また、文書処理部120は、抽出した文の位置情報を取得する。
次に、検索結果処理部140による文の重要度の修正について説明する。本実施形態において、検索結果処理部140は、文書処理部120により抽出された文の重要度を記憶部200から読み出す。そして、検索結果処理部140は、文書処理部120により取得された検索キーを含む各文の位置情報に基づいて、該当する各文の重要度を修正する。
表示制御部150は、検索結果処理部140により修正された重要度(修正重要度)に基づく順位にしたがって、文書処理部120により抽出された文(検索キーを含む文)を表示部300に表示させる。具体的には、例えば、表示部300の表示画面に検索結果を表示するための領域を形成し、この領域に、修正後の順位の上位から順に、文を表示させる。
図10は、上記のように構成された情報処理装置により検索キーに基づく文の検索を行う際の処理部100の動作を説明するフローチャートである。ここでは、検索処理の実行指示が行われる前に、バックグラウンド等にて、重要度計算部130による電子文書の各文の重要度の計算が完了しているものとする。検索処理が行われる場合、まず、受け付け部110が、検索キーの入力を受け付ける(ステップ1001)。次に、受け付けた検索キーに基づいて、文書処理部120が、この検索キーを含む文を処理対象の電子文書から抽出する。また、文書処理部120は、抽出した文の位置情報を取得する(ステップ1002)。
図11は、本実施形態の情報処理装置を構成するのに好適なハードウェア構成例を示す図である。ここでは、コンピュータに適用する場合について説明する。図11に示すコンピュータは、演算手段であるCPU(Central Processing Unit)10aと、主記憶手段であるメモリ10cを備える。また、外部デバイスとして、磁気ディスク装置(HDD:Hard Disk Drive)10g、ネットワーク・インターフェイス10f、ディスプレイ装置を含む表示機構10d、音声機構10h、キーボードやマウス等の入力デバイス10i等を備える。
Claims (9)
- 文書中に含まれる特定の文を検索して出力する装置であって、
検索対象の文書の検索に用いられる検索キーを取得する検索キー取得部と、
検索対象の文書に含まれる各文の重要度を算出する重要度計算部と、
前記検索キー取得部により取得された検索キーを用いて検索対象の文書に対して検索を行い、検索対象の当該文書から当該検索キーを含む文を抽出し、抽出された当該文の当該文書における位置の情報を取得する抽出部と、
前記抽出部により抽出された各文に関して、当該抽出部により得られた検索対象の前記文書中における当該文の位置に基づき、前記重要度計算部により算出された当該文の重要度の値を修正して修正重要度を算出する重要度修正部と、
前記重要度修正部により算出された修正重要度に基づく順番にしたがって、前記抽出部により抽出された文を出力する検索結果出力部と、を備え、
前記重要度修正部は、前記重要度計算部により算出された各文の重要度に対して、検索対象の前記文書中における当該文の位置が前記検索キーを有する文に近いほど大きい重み付けを行って修正する、装置。 - 前記重要度計算部は、検索対象の前記文書に含まれる各文に対して、当該文に含まれる単語の当該文書全体における出現数に基づき、重要度を算出する、請求項1に記載の装置。
- 前記重要度修正部は、前記重要度計算部により算出された各文の重要度に対して、検索対象の前記文書中における当該文の位置が前方であるほど大きい重み付けを行って修正する、請求項1または請求項2に記載の装置。
- 前記検索キー取得部は、検索対象の前記文書に含まれる一の文の一部または全部を指定することによって特定された部分を検索キーとして取得する、請求項1または請求項2に記載の装置。
- 前記重要度計算部は、検索対象の前記文書に含まれる単語に関するtf-idf(term frequency-inverse document frequency)に基づいて、当該文書に含まれる各文の重要度を算出する、請求項1に記載の装置。
- 文書中に含まれる特定の文を検索して出力する装置であって、
文書を表示する表示部と、
前記表示部に表示された文書における特定の部分の指定を受け付ける受け付け部と、
前記受け付け部により受け付けた前記文書における前記特定の部分を検索キーとして、当該文書に対して検索を行い、検索対象の当該文書から当該検索キーを含む文を抽出し、抽出された当該文の当該文書における位置の情報を取得する抽出部と、
前記表示部に表示された前記文書に含まれる各文に関して、当該文に含まれる単語の当該文書全体における出現数に基づいて求められた重要度と、前記抽出部により抽出された文に関する前記位置の情報とに基づいて、当該抽出部により抽出された文の表示順を決定する検索結果処理部と、
前記検索結果処理部により決定された表示順にしたがって、前記抽出部により抽出された文を前記表示部に表示させる表示制御部と、を備え、
前記検索結果処理部は、前記抽出部により抽出された各文の重要度に対して、前記位置の情報に基づき、前記文書中における当該文の位置が前記検索キーを指定された文に近いほど大きい重み付けを行って得られた値に基づき、当該抽出部により抽出された文の表示順を決定する、装置。 - 前記検索結果処理部は、前記抽出部により抽出された各文の重要度に対して、前記位置の情報に基づき、前記文書中における当該文の位置が前方であるほど大きい重み付けを行って得られた値に基づき、当該抽出部により抽出された文の表示順を決定する、請求項6に記載の装置。
- 文書を表示する表示部を備えたコンピュータにおける、当該文書中から特定の文を検索して当該表示部に表示させる方法であって、
コンピュータのプロセッサが、検索キーの入力を受け付けるステップと、
前記プロセッサが、受け付けた前記検索キーに基づいて、前記文書に対して検索を行い、検索対象の当該文書から当該検索キーを含む文を抽出し、抽出された当該文の当該文書における位置の情報を取得するステップと、
前記プロセッサが、前記表示部に表示された前記文書に含まれる各文に関して、当該文に含まれる単語の当該文書全体における出現数に基づいて求められた重要度と、前記検索キーに基づいて抽出された文に関する前記位置の情報とに基づいて、少なくとも、検索対象の当該文書中における抽出された当該文の位置が当該検索キーを有する文に近いほど大きい重み付けを行って当該重要度を修正する処理を行い、修正された重要度に基づいて、抽出された当該文の表示順を決定するステップと、
前記プロセッサが、決定された表示順にしたがって、前記検索キーに基づいて抽出された文を前記表示部に表示させるステップと、
を含む、方法。 - 前記文の表示順を決定するステップにおいて、前記検索キーに基づいて抽出された各文の重要度に対して、さらに、前記文書中における当該文の位置が前方であるほど大きい重み付けを行って当該重要度を修正する処理を行う、請求項8に記載の方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013122805A JP6099046B2 (ja) | 2013-06-11 | 2013-06-11 | 文を検索する装置および方法 |
US14/275,994 US9767186B2 (en) | 2013-06-11 | 2014-05-13 | Retrieving a specific sentence from a document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013122805A JP6099046B2 (ja) | 2013-06-11 | 2013-06-11 | 文を検索する装置および方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014241034A JP2014241034A (ja) | 2014-12-25 |
JP2014241034A5 JP2014241034A5 (ja) | 2016-03-31 |
JP6099046B2 true JP6099046B2 (ja) | 2017-03-22 |
Family
ID=52006359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013122805A Expired - Fee Related JP6099046B2 (ja) | 2013-06-11 | 2013-06-11 | 文を検索する装置および方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9767186B2 (ja) |
JP (1) | JP6099046B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7657550B2 (en) | 2005-11-28 | 2010-02-02 | Commvault Systems, Inc. | User interfaces and methods for managing data in a metabase |
US20200257596A1 (en) | 2005-12-19 | 2020-08-13 | Commvault Systems, Inc. | Systems and methods of unified reconstruction in storage systems |
US8370442B2 (en) | 2008-08-29 | 2013-02-05 | Commvault Systems, Inc. | Method and system for leveraging identified changes to a mail server |
US8892523B2 (en) | 2012-06-08 | 2014-11-18 | Commvault Systems, Inc. | Auto summarization of content |
CN107077465A (zh) * | 2015-02-20 | 2017-08-18 | 惠普发展公司,有限责任合伙企业 | 引用解释 |
US10102192B2 (en) | 2015-11-03 | 2018-10-16 | Commvault Systems, Inc. | Summarization and processing of email on a client computing device based on content contribution to an email thread using weighting techniques |
US10540516B2 (en) | 2016-10-13 | 2020-01-21 | Commvault Systems, Inc. | Data protection within an unsecured storage environment |
WO2019106878A1 (ja) * | 2017-11-28 | 2019-06-06 | 桂太 杉原 | 情報処理システム、情報処理方法、及びコンピュータプログラム |
US20190251204A1 (en) | 2018-02-14 | 2019-08-15 | Commvault Systems, Inc. | Targeted search of backup data using calendar event data |
CN109062895B (zh) * | 2018-07-23 | 2022-06-24 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
US11397776B2 (en) | 2019-01-31 | 2022-07-26 | At&T Intellectual Property I, L.P. | Systems and methods for automated information retrieval |
CN110399477A (zh) * | 2019-06-20 | 2019-11-01 | 全球能源互联网研究院有限公司 | 一种文献摘要提取方法、设备及可存储介质 |
US11557284B2 (en) * | 2020-01-03 | 2023-01-17 | International Business Machines Corporation | Cognitive analysis for speech recognition using multi-language vector representations |
US11461539B2 (en) * | 2020-07-29 | 2022-10-04 | Docusign, Inc. | Automated document highlighting in a digital management platform |
US11494417B2 (en) | 2020-08-07 | 2022-11-08 | Commvault Systems, Inc. | Automated email classification in an information management system |
US11841891B2 (en) * | 2022-04-29 | 2023-12-12 | Content Square SAS | Mapping webpages to page groups |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3691844B2 (ja) * | 1990-05-21 | 2005-09-07 | 株式会社東芝 | 文書処理方法 |
JP2729356B2 (ja) | 1994-09-01 | 1998-03-18 | 日本アイ・ビー・エム株式会社 | 情報検索システム及び方法 |
JP3579204B2 (ja) | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
JPH11184865A (ja) | 1997-12-19 | 1999-07-09 | Matsushita Electric Ind Co Ltd | 文書要約装置 |
JP3705917B2 (ja) | 1998-03-03 | 2005-10-12 | シャープ株式会社 | 文書処理装置 |
JP3429184B2 (ja) * | 1998-03-19 | 2003-07-22 | シャープ株式会社 | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
JP3597697B2 (ja) * | 1998-03-20 | 2004-12-08 | 富士通株式会社 | 文書要約装置およびその方法 |
JP2000112967A (ja) * | 1998-10-02 | 2000-04-21 | Nippon Telegr & Teleph Corp <Ntt> | 記事要約装置および記事要約処理方法および当該方法を記述したプログラムを記録した記録媒体 |
JP2000222427A (ja) | 1999-02-02 | 2000-08-11 | Mitsubishi Electric Corp | 関連語抽出装置、関連語抽出方法及び関連語抽出プログラムが記録された記録媒体 |
JP3791879B2 (ja) * | 1999-07-19 | 2006-06-28 | 富士通株式会社 | 文書要約装置およびその方法 |
JP2002108887A (ja) | 2000-09-29 | 2002-04-12 | Canon Inc | 文書検索装置、その装置へのキーワード追加方法、文書検索方法及びコンピュータ読み取り可能な記憶媒体 |
JP2002251394A (ja) | 2001-02-22 | 2002-09-06 | Nec Corp | 全文検索システム |
JP3746233B2 (ja) | 2001-12-26 | 2006-02-15 | 株式会社東芝 | 知識分析システムおよび知識分析方法 |
JP2004062806A (ja) | 2002-07-31 | 2004-02-26 | Toshiba Corp | 類似文書検索装置及び類似文書検索方法 |
JP4378284B2 (ja) | 2002-09-27 | 2009-12-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ワールド・ワイド・ウェブからの情報を使用してライブ・スピーチの機能を拡張するためのシステムおよび方法 |
US7395256B2 (en) | 2003-06-20 | 2008-07-01 | Agency For Science, Technology And Research | Method and platform for term extraction from large collection of documents |
JP2005234635A (ja) * | 2004-02-17 | 2005-09-02 | Fuji Xerox Co Ltd | 文書要約装置および方法 |
JP2005250762A (ja) | 2004-03-03 | 2005-09-15 | Mitsubishi Electric Corp | 辞書生成装置、辞書生成方法および辞書生成プログラム |
JP4769005B2 (ja) | 2005-03-31 | 2011-09-07 | 株式会社日立製作所 | 情報処理支援システム及び情報処理支援プログラム |
JP2007200248A (ja) | 2006-01-30 | 2007-08-09 | Nippon Telegr & Teleph Corp <Ntt> | 方法説明抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP2008269086A (ja) | 2007-04-17 | 2008-11-06 | Fuji Xerox Co Ltd | 情報推薦装置及び情報推薦システム |
CN101526938B (zh) * | 2008-03-06 | 2011-12-28 | 夏普株式会社 | 文档处理装置 |
JP4499179B1 (ja) * | 2009-05-12 | 2010-07-07 | 株式会社エヌ・ティ・ティ・データ | 端末装置 |
US8271502B2 (en) * | 2009-06-26 | 2012-09-18 | Microsoft Corporation | Presenting multiple document summarization with search results |
JP5416680B2 (ja) | 2010-11-30 | 2014-02-12 | 日本電信電話株式会社 | 文書分割検索装置及び方法及びプログラム |
-
2013
- 2013-06-11 JP JP2013122805A patent/JP6099046B2/ja not_active Expired - Fee Related
-
2014
- 2014-05-13 US US14/275,994 patent/US9767186B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014241034A (ja) | 2014-12-25 |
US20140365475A1 (en) | 2014-12-11 |
US9767186B2 (en) | 2017-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6099046B2 (ja) | 文を検索する装置および方法 | |
JP7171438B2 (ja) | ユーザインタフェース方法及び装置 | |
RU2683507C2 (ru) | Извлечение значений атрибутов на основе идентифицированных записей | |
JP6062929B2 (ja) | ツールバー上における関連検索の提示 | |
US8515984B2 (en) | Extensible search term suggestion engine | |
US10324934B2 (en) | Method and device for providing content recommending information to devices | |
US9721006B2 (en) | Systems and methods for enabling searches of a document corpus and generation of search queries | |
US8271410B2 (en) | Displaying resources based on shared contexts | |
US20130232148A1 (en) | Content mapping | |
US10409882B2 (en) | Method and apparatus for navigation in webpage | |
US9519703B2 (en) | Refining search results for a compound search query | |
KR20110099225A (ko) | 제안된 미세 조정 용어 및 버티컬 검색의 검색 결과 미리보기 | |
KR20160138440A (ko) | 질의 의도에 기초한 serp 프리젠테이션 조절 기법 | |
EP2272042A2 (en) | Intelligent autocompletion | |
US20130238609A1 (en) | Query result rendering | |
KR20160032938A (ko) | 애플리케이션 디스플레이 디바이스 및 방법 | |
US20190347295A1 (en) | Display apparatus and display method | |
EP3084636A1 (en) | Identifying semantically-meaningful text selections | |
JP2008262506A (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
CN116467432A (zh) | 展示查词结果的方法及相关产品 | |
JP2019086931A (ja) | 情報処理装置およびコンピュータプログラム | |
JP2022054015A (ja) | 出力装置、出力プログラム及び出力方法 | |
JP2010204739A (ja) | 支援装置、プログラムおよび支援方法 | |
JP5870815B2 (ja) | 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム | |
JP2001092842A (ja) | 情報探索方法および探索プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170124 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20170124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6099046 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |