JP6303669B2 - 資料検索装置、資料検索システム、資料検索方法、及び、プログラム - Google Patents
資料検索装置、資料検索システム、資料検索方法、及び、プログラム Download PDFInfo
- Publication number
- JP6303669B2 JP6303669B2 JP2014056283A JP2014056283A JP6303669B2 JP 6303669 B2 JP6303669 B2 JP 6303669B2 JP 2014056283 A JP2014056283 A JP 2014056283A JP 2014056283 A JP2014056283 A JP 2014056283A JP 6303669 B2 JP6303669 B2 JP 6303669B2
- Authority
- JP
- Japan
- Prior art keywords
- feature word
- writing
- data
- feature
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
また、前記特徴データ作成手段は、前記書込みの種類に応じて該当する前記第2の特徴語を削除することにより、書込みの種類により第2の特徴語から外すことが可能になり、より利用者の興味・関心に合致する資料を提示することが可能になる。
書込みの種類は、例えば、下線。マーカー、囲み、×印、手書き文字等であり、複数の書込みの種類を設けることにより、利用者が興味・関心の有無を容易に表現することが可能になる。
これにより、利用者の手書きによるメモをテキストデータに加えて、メモ部分の第2の特徴語を検索に用いることが可能になる。
これにより、書込みの種類により重要度を大きくまたは小さくして利用者の興味・関心に応じた特徴語データを作成し、より的確な資料を提示することが可能になる。
これにより、新たな検索対象資料について検索用インデックスを更新していくことが可能になる。
利用者が、持参したドキュメントを例えばスキャナで読み込ませることにより、検索キーワード等を利用者が入力することなく、ドキュメントの内容に適した資料を提示することが可能になり、利用者の負担を減じることが可能になる。
また、例えば、携帯端末等のカメラ機能を使用して利用者が撮影したドキュメント画像を、インターネット等のネットワークを介して画像読み取り手段により資料検索装置に取り込むことにより、ドキュメントの内容に適した資料を提示することが可能になる。
また、利用者の書込みに応じてドキュメントの特徴語の重要度を変化することにより、利用者の興味・関心により適合する資料を検索することが可能になる。
また、利用者の書込みに応じてドキュメントの特徴語の重要度を変化することにより、利用者の興味・関心により適合する資料を検索することが可能になる。
ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部22、ROM、記憶媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部21が各種処理を行うために使用するワークエリアを備える。
通信制御部24は、通信制御装置、通信ポート等を有し、ネットワークを介して、他の装置との通信制御を行う。ネットワークは、有線、無線を問わない。
表示部26は、CRTモニタ、液晶パネル等のディスプレイ装置であり、表示部26には、本実施形態の資料検索装置1において検索結果等が表示される。
周辺機器I/F部27を介して、例えば、スキャナが接続され、利用者が持参したドキュメントの画像入力データを取り込むことが可能である。
バス28は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
資料検索装置1は、ドキュメント入力部11、文字認識・書込み抽出部12、特徴語抽出部13、特徴語重み付け部14、検索対象資料の特徴語データベース15、関連度計算部16、検索結果表示部17、辞書データベース18等で構成される。
詳しくは後述するが、検索インデックスは、各書籍、資料の特徴となる単語(特徴語)の重要度に関するデータであり、予め、各書籍や資料の書誌データや全文から辞書データベース18を使用して特徴語を抽出し、その重要度を求めることにより作成する。
ドキュメント入力部11は、利用者が持ち込むドキュメントを画像データとして取り込む。
書込みは、例えば、下線やマーカーによるマーキング、囲み、手書き文字、不要な部分を除外するための×印等である。
また、書込みが手書き文字の場合には、手書き文字に対して文字認識処理を実行し、手書き文字もテキストデータに変換する。
特徴語は、例えば、名詞の単語、及び、辞書データベース18にはない未知語等である。
重要度は、例えば、特徴語の出現頻度や、TF・IDF(Term Frequency・Inverse Document Frequency)値など、各種の重要度算出方法を利用できる。
一方、ドキュメント中で×印の書込みがある部分については、その部分に含まれる特徴語は計数しないようにしてもよい。
図3は、検索対象資料の特徴語データベース15の構成例を示す図である。
検索用インデックス31は、図書館等の蔵書・資料が増えると、その都度、作成・追加され、特徴語データベース15が更新される。
図3に示すように、例えば、検索対象資料ID「1」の検索用インデックス31−1は、特徴語として「女性」、「職業」、「カルチャー」、「日本」等の特徴語と、その重要度から成る。
入力ドキュメント33には、印刷文字35による記事が印刷されているとともに、利用者が手書きで書き込んだ書込みマーク37、手書き文字39が描画されている。
書込みマーク37は、例えば、マーカーによるマーキング37a(書込みマークa)、下線37b(書込みマークb)、囲み37c(書込みマークc)、×印37d(書込みマークd)等である。
また、×印37dは、利用者が必要ないと考えた部分に書き込むものであり、その部分に含まれる特徴語は除外するようにすればよい。
図5は、資料検索装置1の処理の流れを示すフローチャートである。
例えば、周辺機器I/F部27に接続されたスキャナにより入力ドキュメント33の画像を読み取り、記憶部22に格納する。
文字認識処理は、OCR(Optical Character Recognition)等の公知の技術を使用すればよい。
手書き文字に対する文字認識処理により抽出されたテキストデータには、手書き文字であることを示すフラグを付しておくとよい。
書込みの種類(マーキング37a、下線37b、囲み37c、×印37d)を想定して入力ドキュメント33の画像から抽出を行う。
また、下線37bの場合は、テキストに重ならないほぼ直線の形状を抽出する。
また、囲み37cの場合は、文字以外の閉曲線の形状を抽出する。
また、×印37dの場合は、斜めの交わる2直線の形状を抽出する。
図6は、書込みマーク・データ41の構成例を示す図である。
書込みマーク・データ41は、入力ドキュメント33の識別番号である入力ドキュメントID、及び、当該入力ドキュメント33に含まれる書込みの識別番号を示すマークNo、書込みマーク37の種類を示す書込みマークID、当該書込みマークの位置データ等で構成される。
マーキング37aの場合、ほぼ矩形の対角の頂点の座標、下線37bの場合、直線の両端の座標、囲み37cの場合、囲みの閉曲線の(最小x座標、最小y座標)と(最大x座標、最大y座標)、×印37dの場合、2直線の(最小x座標、最小y座標)と(最大x座標、最大y座標)を位置データとすることができる。
すなわち、テキストデータを意味のある単語に区切り、辞書データベース18を利用して品詞を識別する。
図7は、入力ドキュメント33のテキストデータから抽出された特徴語43の例を示す図である。
図7に示すように、テキストデータに含まれる特徴語が抽出される。
また、手書き文字39の部分のテキストデータから抽出された特徴語には、その旨のフラグを付しておく。
重み付け重要度は、図6に示した書込みマーク・データ41及び、図8に示す重み付け倍率45を元に、テキストデータから抽出された特徴語の出現頻度を求めて計数し、重要度を求める。
例えば、書込みマーク37がマーキング37a及び下線37bの場合、マーキング37a及び下線37bの位置に含まれる特徴語の出現頻度を2.0倍として、書込みマーク37が囲み37cの場合、囲みの位置に含まれる特徴語の出現頻度を1.7倍として計数する。
また、書込みマーク37が×印37dの場合、×印の位置の範囲に含まれる特徴語の重み付け倍率を0にして、計数しないようにする。
更に、手書き文字39の場合、手書き文字としてフラグが付されている特徴語の出現頻度に、例えば、2.5倍の重み付けをして計数する。
入力ドキュメント33の特徴データ47は、特徴語と重み付け出現頻度(重み付け重要度)で構成される。
重みを付すことにより、重み付け出現頻度の値は、実際に入力ドキュメント33に含まれる特徴語の出現頻度(カッコ内の数値)と異なり、増減した数値になる。
関連度の計算には、例えば、公知の技術であるコサイン類似度を用いればよい。
コサイン類似度は、検索用インデックス31のベクトル51と、特徴データ47のベクトル53が成す角度θであり、この角度θが小さいほど類似度、すなわち、2つのベクトルの関連度が高いことを示す。
関連度を示す角度θの大きさは、検索用インデックス31のベクトル51と、入力ドキュメント33の特徴データ47のベクトル53の内積を計算することにより求める。
資料検索装置1の表示部26に、利用者が提示した入力ドキュメント33との関連度が高い文献、書籍、資料の名称等が表示される。
図12に示すように、資料検索システム10は、画像読み取り装置110、抽出装置120、サーバ130が、例えばネットワーク140を介して通信可能に接続された構成である。
読み取られたドキュメント画像データは、ネットワーク140を介して抽出装置120に送られる。
抽出装置120は、ドキュメント画像データを受信し、印刷文字35の認識処理及び手書き文字39の認識処理を行い、テキストデータを作成するとともに、ドキュメント33に書き込まれた書込みマーク37を抽出し書込みマーク・データ41を作成する。
作成したテキストデータ及び書込みマーク・データ41は、ネットワーク140を介してサーバ3に送られる。
サーバ3は、汎用コンピュータ等で構成でき、図5のフローチャートのステップ104〜108の処理を実行する。
また、特徴語の出現頻度の代わりに、隣り合って出現する特徴語の共起頻度(単語Nグラム)を要素とするベクトルを用いるようにしてもよい。
10………資料検索システム
11………ドキュメント入力部
12………文字認識・書込み抽出部
13………特徴語抽出部
14………特徴語重み付け部
15………検索対象資料の特徴語データベース
16………関連度計算部
17………検索結果表示部
18………辞書データベース
31………検索用インデックス
33………入力ドキュメント
35………印刷文字
37………書込みマーク
39………手書き文字
41………書込みマーク・データ
45………重み付き倍率
47………入力ドキュメント33の特徴データ
Claims (8)
- 特徴語データとの関連度に基づいて資料を検索する資料検索装置において、
書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、
前記書込みの種類と位置を抽出する書込み抽出手段と、
検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、
前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、
前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、
前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、
を具備することを特徴とする資料検索装置。 - 前記書込み抽出手段は、前記書込みに対して、文字認識処理を施し、認識結果を前記テキストデータに加えることを特徴とする請求項1に記載の資料検索装置。
- 前記特徴データ作成手段は、前記書込みの種類に応じて前記第2の特徴語の重要度を変化することを特徴とする請求項1または請求項2に記載の資料検索装置。
- 前記検索対象資料の検索用インデックスを作成するインデックス作成手段を更に具備することを特徴とする請求項1乃至請求項3のいずれかに記載の資料検索装置。
- 前記ドキュメント画像を読み取る画像読み取り手段を更に備えることを特徴とする請求項1乃至請求項4のいずれかに記載の資料検索装置。
- 特徴語データとの関連度に基づいて資料を検索する資料検索システムにおいて、
書込みを含むドキュメント画像を読み取り、読み取った画像を送信する画像読み取り装置と、
前記ドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、を備え、抽出したデータを送信する抽出装置と、
検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、を備えるサーバと、
を具備することを特徴とする資料検索システム。 - 特徴語データとの関連度に基づいて資料を検索する資料検索装置で行う資料検索方法であって、
書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出ステップと、
前記書込みの種類と位置を抽出する書込み抽出ステップと、
検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶ステップと、
前記テキストデータから第2の特徴語を抽出する特徴語抽出ステップと、
前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成ステップと、
前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算ステップと、
を含むことを特徴とする資料検索方法。 - コンピュータを、特徴語データとの関連度に基づいて資料を検索する資料検索装置として機能させるためのプログラムであって、
前記コンピュータを、
書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、
前記書込みの種類と位置を抽出する書込み抽出手段と、
検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、
前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、
前記書込みの位置の前記第2の特徴語に対して、当該書込みの種類に応じた重要度を算出するとともに、前記書込みの種類に応じて該当する前記第2の特徴語を削除して、前記テキストデータの第2の特徴語とその重要度を含む前記特徴語データを作成する特徴データ作成手段と、
前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014056283A JP6303669B2 (ja) | 2014-03-19 | 2014-03-19 | 資料検索装置、資料検索システム、資料検索方法、及び、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014056283A JP6303669B2 (ja) | 2014-03-19 | 2014-03-19 | 資料検索装置、資料検索システム、資料検索方法、及び、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015179385A JP2015179385A (ja) | 2015-10-08 |
JP6303669B2 true JP6303669B2 (ja) | 2018-04-04 |
Family
ID=54263390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014056283A Active JP6303669B2 (ja) | 2014-03-19 | 2014-03-19 | 資料検索装置、資料検索システム、資料検索方法、及び、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6303669B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10102206B2 (en) * | 2016-03-31 | 2018-10-16 | Dropbox, Inc. | Intelligently identifying and presenting digital documents |
CN107291871B (zh) * | 2017-06-15 | 2021-02-19 | 北京百度网讯科技有限公司 | 基于人工智能的多域信息的匹配度评估方法、设备及介质 |
JP7324577B2 (ja) * | 2018-10-24 | 2023-08-10 | Solize株式会社 | テキスト処理方法及び、テキスト処理装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3746233B2 (ja) * | 2001-12-26 | 2006-02-15 | 株式会社東芝 | 知識分析システムおよび知識分析方法 |
JP2006133880A (ja) * | 2004-11-02 | 2006-05-25 | Canon Inc | 情報処理装置及び情報処理方法 |
JP2006190060A (ja) * | 2005-01-06 | 2006-07-20 | Kyocera Mita Corp | データベース検索方法、データベース検索プログラムおよび原稿処理機 |
JP5205028B2 (ja) * | 2007-10-15 | 2013-06-05 | 株式会社日立製作所 | 手書き注釈管理装置およびインタフェース |
-
2014
- 2014-03-19 JP JP2014056283A patent/JP6303669B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015179385A (ja) | 2015-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jockers et al. | Text‐mining the humanities | |
JP5159772B2 (ja) | 文書検索装置及び文書検索方法 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
US20180181544A1 (en) | Systems for Automatically Extracting Job Skills from an Electronic Document | |
US20130036076A1 (en) | Method for keyword extraction | |
US11023721B2 (en) | Document information evaluating device, document information evaluating method, and document information evaluating program | |
US20130036113A1 (en) | System and Method for Automatically Providing a Graphical Layout Based on an Example Graphic Layout | |
Mutuvi et al. | Evaluating the impact of OCR errors on topic modeling | |
JP4997892B2 (ja) | 検索システム、検索方法及び検索プログラム | |
US9507805B1 (en) | Drawing based search queries | |
EP2806336A1 (en) | Text prediction in a text input associated with an image | |
CN110032734B (zh) | 近义词扩展及生成对抗网络模型训练方法和装置 | |
KR102059743B1 (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
CN106980664A (zh) | 一种双语可比较语料挖掘方法及装置 | |
Wei et al. | LDA-based word image representation for keyword spotting on historical Mongolian documents | |
JP6303669B2 (ja) | 資料検索装置、資料検索システム、資料検索方法、及び、プログラム | |
López-Escobedo et al. | Analysis of intertextual distances using multidimensional scaling in the context of authorship attribution | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
Dahlberg et al. | A distributional semantic online lexicon for linguistic explorations of societies | |
Singh et al. | A benchmark dataset of online handwritten gurmukhi script words and numerals | |
JP2012230544A (ja) | 画像検索装置およびプログラム | |
JP5414334B2 (ja) | 擬似文書検索システム及び擬似文書検索方法 | |
Dinov et al. | Natural language processing/text mining | |
Yeh et al. | A case for query by image and text content: searching computer help using screenshots and keywords | |
Saabni et al. | Keywords image retrieval in historical handwritten Arabic documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171205 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6303669 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |