JP2020154395A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2020154395A JP2020154395A JP2019049750A JP2019049750A JP2020154395A JP 2020154395 A JP2020154395 A JP 2020154395A JP 2019049750 A JP2019049750 A JP 2019049750A JP 2019049750 A JP2019049750 A JP 2019049750A JP 2020154395 A JP2020154395 A JP 2020154395A
- Authority
- JP
- Japan
- Prior art keywords
- unnecessary
- content
- terms
- term
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims description 15
- 238000012217 deletion Methods 0.000 abstract description 24
- 230000037430 deletion Effects 0.000 abstract description 24
- 238000000605 extraction Methods 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、本発明に係る情報処理装置の一実施の形態を示したブロック構成図である。本実施の形態における情報処理装置10は、汎用的なパーソナルコンピュータ(PC)等のコンピュータで実現できる。つまり、情報処理装置10は、CPU、ROM、RAM、ハードディスクドライブ(HDD)等の記憶手段、また処理対象とするコンテンツをネットワーク経由で取得する場合、ネットワークインタフェースを有する。コンテンツをCD−ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体から読み取る場合には、そのための外部インターフェースを備える必要がある。また、情報処理装置10は、ユーザーと情報を授受する必要があるので、そのためにユーザーインタフェース、例えば入力手段としてマウスやキーボードや表示手段としてのディスプレイを有する。あるいは、ネットワークを介してユーザーと情報の授受を行う場合にはネットワークインタフェースを備えてもよい。
上記実施の形態1では、出現頻度の高い用語を不要用語としてインデックスに含まれないようにした。換言すると、出現頻度の低い用語は、特徴を表す用語としてみなされ、インデックスに含まれる可能性がある。ただ、そうすると、例えば「拝啓」など出現頻度が1回切りなどコンテンツの特徴を表すことのない用語がインデックスに登録されてしまう可能性がある。
Claims (7)
- 索引データの作成対象となるコンテンツを取得する取得手段と、
前記コンテンツを所定のブロックに分割する分割手段と、
前記コンテンツに含まれている用語のうち前記索引データに登録させない用語としての不要用語が指定された不要用語情報を参照して、前記各ブロックにおいて前記コンテンツの索引データの作成の際に参照させない範囲を決定する決定手段と、
を有することを特徴とする情報処理装置。 - 前記決定手段は、前記コンテンツに含まれている不要用語の出現頻度を前記ブロック毎に積算し、前記各ブロックにおける前記不要用語の出現頻度に応じて当該ブロックにおける前記範囲を決定することを特徴とする請求項1に記載の情報処理装置。
- 前記範囲は、前記ブロック全体又は一部であることを特徴とする請求項1に記載の情報処理装置。
- 前記コンテンツに含まれている用語の中からユーザーにより選択された用語を不要用語とする前記不要用語情報を生成する生成手段を有することを特徴とする請求項1又は2に記載の情報処理装置。
- 前記生成手段は、前記コンテンツに含まれている用語のうち出現頻度が所定の閾値以上の用語を不要用語の候補としてユーザーに提示することを特徴とする請求項4に記載の情報処理装置。
- 前記生成手段は、不要用語と共に当該不要用語の重み係数をユーザーに指定させ、
前記決定手段は、前記各ブロックにおける前記不要用語の出現頻度に重み係数を乗算して算出された値に応じて当該ブロックにおける前記範囲を決定することを特徴とする請求項4に記載の情報処理装置。 - コンピュータを、
全文検索の実行の際に参照される索引データの作成対象となるコンテンツを取得する取得手段、
前記コンテンツを所定のブロックに分割する分割手段、
前記コンテンツに含まれている用語のうち前記索引データに登録させない用語としての不要用語が指定された不要用語情報を参照して、前記各ブロックにおいて前記コンテンツの索引データの作成の際に参照させない範囲を決定する決定手段、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019049750A JP2020154395A (ja) | 2019-03-18 | 2019-03-18 | 情報処理装置及びプログラム |
US16/516,951 US11275799B2 (en) | 2019-03-18 | 2019-07-19 | Information processing device and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019049750A JP2020154395A (ja) | 2019-03-18 | 2019-03-18 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020154395A true JP2020154395A (ja) | 2020-09-24 |
Family
ID=72514449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019049750A Pending JP2020154395A (ja) | 2019-03-18 | 2019-03-18 | 情報処理装置及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11275799B2 (ja) |
JP (1) | JP2020154395A (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003296365A (ja) * | 2002-03-29 | 2003-10-17 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5594145B2 (ja) * | 2008-11-26 | 2014-09-24 | 日本電気株式会社 | 検索装置、検索方法、及びプログラム |
JP2010257412A (ja) | 2009-04-28 | 2010-11-11 | Nec Corp | 情報フィルタリング装置、情報フィルタリング方法及びプログラム |
JP5392228B2 (ja) * | 2010-10-14 | 2014-01-22 | 株式会社Jvcケンウッド | 番組検索装置および番組検索方法 |
-
2019
- 2019-03-18 JP JP2019049750A patent/JP2020154395A/ja active Pending
- 2019-07-19 US US16/516,951 patent/US11275799B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003296365A (ja) * | 2002-03-29 | 2003-10-17 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
US11275799B2 (en) | 2022-03-15 |
US20200301981A1 (en) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20160098405A1 (en) | Document Curation System | |
US9928415B2 (en) | Mathematical formula learner support system | |
TW201514845A (zh) | 從網頁擷取標題及主體 | |
JP5079471B2 (ja) | 同義語抽出装置 | |
US9569484B2 (en) | Query generation system for an information retrieval system | |
JP6772478B2 (ja) | 情報検索プログラム及び情報検索装置 | |
JP6025487B2 (ja) | フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム | |
Haak et al. | Auditing search query suggestion bias through recursive algorithm interrogation | |
JP2013174988A (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
JP2010123036A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP5317638B2 (ja) | Web文書主要コンテンツ抽出装置及びプログラム | |
JP4796527B2 (ja) | ドキュメント絞り込み検索装置、方法及びプログラム | |
JP2020160494A (ja) | 情報処理装置、文書管理システム及びプログラム | |
KR101835994B1 (ko) | 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치 | |
JP2020154395A (ja) | 情報処理装置及びプログラム | |
JP6488399B2 (ja) | 情報提示システム、及び情報提示方法 | |
JP2009271796A (ja) | 文書データのノイズ除去システム | |
JP5746912B2 (ja) | テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体 | |
JP5389683B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
KR100922693B1 (ko) | 인물 검색 시스템 및 방법 | |
JP2013084216A (ja) | 定型文判別装置及び定型文判別方法 | |
JP2009271797A (ja) | 文書データのノイズ除去システム | |
JP2010128981A (ja) | 操作シーケンス抽出方法及び装置及びプログラム | |
JP2005258910A (ja) | 階層キーワード抽出装置、方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230601 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230725 |