JP2015179385A - Material search device, material search system, material search method, and program - Google Patents
Material search device, material search system, material search method, and program Download PDFInfo
- Publication number
- JP2015179385A JP2015179385A JP2014056283A JP2014056283A JP2015179385A JP 2015179385 A JP2015179385 A JP 2015179385A JP 2014056283 A JP2014056283 A JP 2014056283A JP 2014056283 A JP2014056283 A JP 2014056283A JP 2015179385 A JP2015179385 A JP 2015179385A
- Authority
- JP
- Japan
- Prior art keywords
- feature word
- data
- feature
- writing
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、資料を検索する技術に関し、特に、利用者が提示する資料との関連度が高い書籍・資料を検索する資料検索技術に関する。 The present invention relates to a technology for searching for materials, and more particularly, to a material search technology for searching for books and materials having a high degree of association with materials presented by users.
従来、利用者が知識を得るために、キーワードを入力し、関連書籍を検索したり、あるいは、表示されている文章中のキーワードを選択することで、そのキーワードを含む書籍を検索したりする技術がある。 Conventionally, in order for a user to obtain knowledge, a keyword is input and a related book is searched, or a keyword including the keyword is searched by selecting a keyword in the displayed text. There is.
例えば、特許文献1には、端末から利用者が入力した検索キーワードが含まれる書籍を効率良く、また、重要度の高い順に提示するシステムが提案されている。
For example,
しかしながら、特許文献1は、利用者がキーワードを入力する必要があり、利用者にとって煩雑であるという問題がある。また、入力されたキーワードの組み合せによっては、書籍数が絞り込めない、あるいは、適切な書籍が提示されないという問題がある。
However,
本発明は、前述した問題点に鑑みてなされたもので、その目的とするところは、利用者が持参する書込み入りのドキュメントの内容に関連した利用者の興味・関心に合った書籍・資料を提示することが可能な資料検索装置等を提供することにある。 The present invention has been made in view of the above-described problems, and the object of the present invention is to provide a book / material suitable for the interest / interest of the user related to the contents of the written document brought by the user. An object of the present invention is to provide a material retrieval apparatus that can be presented.
前述した目的を達成するために、第1の発明は、特徴語データとの関連度に基づいて資料を検索する資料検索装置において、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、前記書込みの種類と位置とを用いて前記第2の特徴語の重要度を算出し、前記テキストデータの前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、を具備することを特徴とする資料検索装置である。 In order to achieve the above-described object, the first invention extracts a text data by performing a character recognition process on a document image including writing in a material retrieval apparatus that retrieves a material based on the degree of association with feature word data. A text extraction means; a write extraction means for extracting the type and position of the writing; a storage means for storing a search index including a first feature word of the search target material and its importance; a second from the text data; A feature word extracting means for extracting a feature word of the text, and a feature data creating means for calculating the importance of the second feature word using the type and position of the writing and creating the feature word data of the text data And a degree-of-association calculating means for calculating the degree of association between the search index and the feature word data.
第1の発明により、図書館等が所蔵する書籍や資料から成る検索対象資料について、予め、それぞれの検索対象資料に含まれる第1の特徴語の重要度からなる検索用インデックスを記憶手段により記憶しておき、読み取らせた利用者の書込みを含むドキュメントに含まれる第2の特徴語との関連度を求め、関連度の大きい検索対象資料を提示することが可能になる。 According to the first invention, for a search target material composed of books and materials held by a library or the like, a storage index is stored in advance by the storage means including the importance of the first feature word included in each search target material. In addition, it is possible to obtain the degree of relevance with the second feature word included in the document including the user's writing that has been read, and to present the search target material having a high degree of relevance.
その際、書込み抽出手段により、ドキュメントに書き込まれた書込みの位置と種類を抽出し、特徴データ作成手段により、書込みの位置の第2の特徴語の重要度に、書込みの種類に応じた重み付けを行うことにより、利用者の興味・関心に合致する検索対象資料を提示することが可能になる。
書込みの種類は、例えば、下線、マーカー、囲み、×印、手書き文字等であり、複数の書込みの種類を設けることにより、利用者が興味・関心の有無を容易に表現することが可能になる。
At that time, the writing extraction means extracts the writing position and type written in the document, and the feature data creation means weights the importance of the second feature word at the writing position according to the writing type. By doing so, it becomes possible to present the search target material that matches the user's interest.
The writing type is, for example, underline, marker, box, cross mark, handwritten character, etc. By providing a plurality of writing types, the user can easily express the interest / interest. .
前記書込み抽出手段は、文字認識処理を施し、認識結果を前記テキストデータに加える。
これにより、利用者の手書きによるメモをテキストデータに加えて、メモ部分の第2の特徴語を検索に用いることが可能になる。
The writing extraction unit performs character recognition processing and adds a recognition result to the text data.
As a result, a user's handwritten memo can be added to the text data, and the second feature word of the memo portion can be used for the search.
前記特徴データ作成手段は、前記書込みの種類に応じて該当する第2の特徴語の重要度を変化することが望ましい。
これにより、書込みの種類により重要度を大きくまたは小さくして利用者の興味・関心に応じた特徴語データを作成し、より的確な資料を提示することが可能になる。
It is desirable that the feature data creation means changes the importance of the corresponding second feature word in accordance with the type of writing.
This makes it possible to create feature word data according to the user's interest and interest by increasing or decreasing the importance depending on the type of writing, and present more accurate data.
また、前記特徴データ作成手段は、前記書込みの種類に応じて該当する前記第2の特徴語を削除することが望ましい。
これにより、書込みの種類により第2の特徴語からはずすことが可能になり、より利用者の興味・関心に合致する資料を提示することが可能になる。
Further, it is desirable that the feature data creation unit deletes the second feature word corresponding to the type of writing.
Thereby, it becomes possible to remove from the second feature word depending on the type of writing, and it is possible to present materials that more closely match the user's interest.
前記検索対象資料の検索用インデックスを作成するインデックス作成手段を更に具備することが望ましい。
これにより、新たな検索対象資料について検索用インデックスを更新していくことが可能になる。
It is desirable to further comprise index creation means for creating a search index for the search target material.
This makes it possible to update the search index for new search target materials.
前記ドキュメント画像を読み取る画像読み取り手段を更に備えることが望ましい。
利用者が、持参したドキュメントを例えばスキャナで読み込ませることにより、検索キーワード等を利用者が入力することなく、ドキュメントの内容に適した資料を提示することが可能になり、利用者の負担を減じることが可能になる。
また、例えば、携帯端末等のカメラ機能を使用して利用者が撮影したドキュメント画像を、インターネット等のネットワークを介して画像読み取り手段により資料検索装置に取り込むことにより、ドキュメントの内容に適した資料を提示することが可能になる。
It is desirable to further comprise image reading means for reading the document image.
By loading a document that the user has brought with a scanner, for example, it becomes possible to present materials suitable for the content of the document without the user inputting a search keyword, etc., thereby reducing the burden on the user. It becomes possible.
In addition, for example, a document image taken by a user using a camera function of a mobile terminal or the like is loaded into a document retrieval device by an image reading unit via a network such as the Internet, so that a document suitable for the content of the document can be obtained. It becomes possible to present.
以上のように、第1の発明により、利用者が検索キーワードを装置に入力することなく、利用者のドキュメントを資料検索装置に画像として取り込むだけで、当該ドキュメントの内容に適した資料を検索することが可能になり、利用者の負担を軽減することが可能になる。
また、利用者の書込みに応じてドキュメントの特徴語の重要度を変化することにより、利用者の興味・関心により適合する資料を検索することが可能になる。
As described above, according to the first aspect of the present invention, a user can search for a material suitable for the contents of the document only by taking the user's document as an image into the material searching device without inputting a search keyword into the device. And the burden on the user can be reduced.
Further, by changing the importance of the feature word of the document in accordance with the user's writing, it becomes possible to search for a material that matches the user's interest / interest.
第2の発明は、特徴語データとの関連度に基づいて資料を検索する資料検索システムにおいて、書込みを含むドキュメント画像を読み取り、読み取った画像を送信する画像読み取り装置と、前記ドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、を備え、抽出したデータを送信する抽出装置と、検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、前記書込みの種類と位置とを用いて前記第2の特徴語の重要度を算出し、前記テキストデータの前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、を備えるサーバと、を具備することを特徴とする資料検索システムである。 According to a second aspect of the present invention, there is provided a document retrieval system that retrieves a document based on a degree of association with feature word data, an image reading device that reads a document image including writing, and transmits the read image; A text extracting means for performing processing to extract text data; a writing extracting means for extracting the type and position of the writing; an extracting device for transmitting the extracted data; and a first characteristic word of the search target material; Storage means for storing a search index including the degree of importance, feature word extraction means for extracting a second feature word from the text data, and the type and position of the writing, the second feature word Feature data creating means for calculating importance and creating the feature word data of the text data, the search index, and the feature word data , A relevance calculation means for calculating a degree of association with a document retrieval system characterized by comprising a server, a with a.
第2の発明により、利用者が検索キーワードをシステムに入力することなく、利用者のドキュメント画像を読み取らせるだけで、当該ドキュメントの内容に適した資料を提示することが可能になり、利用者の負担を軽減することが可能になる。
また、利用者の書込みに応じてドキュメントの特徴語の重要度を変化することにより、利用者の興味・関心により適合する資料を検索することが可能になる。
According to the second invention, it is possible to present a material suitable for the contents of the document only by allowing the user to read the document image of the user without inputting the search keyword into the system. The burden can be reduced.
Further, by changing the importance of the feature word of the document in accordance with the user's writing, it becomes possible to search for a material that matches the user's interest / interest.
第3の発明は、特徴語データとの関連度に基づいて資料を検索する資料検索装置で行う資料検索方法であって、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出ステップと、前記書込みの種類と位置を抽出する書込み抽出ステップと、検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶ステップと、前記テキストデータから第2の特徴語を抽出する特徴語抽出ステップと、前記書込みの種類と位置とを用いて前記第2の特徴語の重要度を算出し、前記テキストデータの前記特徴語データを作成する特徴データ作成ステップと、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算ステップと、を含むことを特徴とする資料検索方法である。 A third invention is a material retrieval method performed by a material retrieval device that retrieves materials based on the degree of association with feature word data, and performs text recognition processing on a document image including writing to extract text data A step of extracting, a writing extraction step of extracting the type and position of the writing, a storing step of storing a first feature word of the search target material and a search index including its importance, and a second feature from the text data A feature word extracting step for extracting a word; a feature data creating step for calculating the importance of the second feature word using the type and position of the writing; and creating the feature word data of the text data; And a relevance level calculating step for calculating a relevance level between the search index and the feature word data.
第4の発明は、コンピュータを、特徴語データとの関連度に基づいて資料を検索する資料検索装置として機能させるためのプログラムであって、前記コンピュータを、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、前記書込みの種類と位置とを用いて前記第2の特徴語の重要度を算出し、前記テキストデータの前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段、として機能させるためのプログラムである。 A fourth invention is a program for causing a computer to function as a material retrieval device that retrieves material based on the degree of association with feature word data, wherein the computer performs character recognition processing on a document image including writing. Text extracting means for extracting the applied text data, write extracting means for extracting the type and position of the writing, storage means for storing a first feature word of the search target material and a search index including its importance, Importance of the second feature word is calculated using feature word extraction means for extracting a second feature word from the text data, and the type and position of the writing, and the feature word data of the text data is The feature data creating means to be created and the relevance calculation means for calculating the relevance between the search index and the feature word data Which is the program.
第4の発明に係るプログラムを汎用コンピュータにインストールすることによって、第1の発明に係る資料検索装置を得て、第3の発明に係る資料検索方法を実行することができる。 By installing the program according to the fourth invention in a general-purpose computer, the material search apparatus according to the first invention can be obtained and the material search method according to the third invention can be executed.
本発明の資料検索装置等によって、利用者が持参する書込み入りのドキュメントの内容に関連する書籍・資料を提示することが可能になる。 With the material retrieval apparatus of the present invention, it becomes possible to present books and materials related to the contents of written documents brought by users.
以下、本発明の実施形態を、図面を参照しながら詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、資料検索装置1のハードウエア構成例を示すブロック図である。資料検索装置1は、図1に示すように、コンピュータシステムで構成することが可能である。図1の構成は、あくまで一例であり、用途、目的に応じて様々な構成を採ることが可能である。
FIG. 1 is a block diagram illustrating a hardware configuration example of the
資料検索装置1は、例えば、制御部21、記憶部22、メディア入出力部23、通信制御部24、入力部25、表示部26、周辺機器I/F(インタフェース)部27等がバス28を介して接続されて構成される。
In the
制御部21は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
The
CPUは、ROM、記憶部22等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス28を介して接続された各装置を駆動制御し、コンピュータが行う処理を実現する。
ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部22、ROM、記憶媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部21が各種処理を行うために使用するワークエリアを備える。
The CPU calls and executes a program stored in the ROM, the
The ROM is a non-volatile memory and permanently holds a computer boot program, a program such as BIOS, data, and the like.
The RAM is a volatile memory, and temporarily stores a program, data, and the like loaded from the
記憶部22は、制御部21が実行するプログラム、プログラム実行に必要なデータ、OS(Operating System)等が格納される。記憶部22には、後述する検索対象資料の特徴語データベース15及び辞書データベース18や、本実施形態の資料検索装置1のプログラム及びデータが格納される。
The
メディア入出力部23(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)等のメディア入出力装置を有する。
通信制御部24は、通信制御装置、通信ポート等を有し、ネットワークを介して、他の装置との通信制御を行う。ネットワークは、有線、無線を問わない。
The media input / output unit 23 (drive device) inputs / outputs data, for example, media such as a CD drive (-ROM, -R, -RW, etc.), DVD drive (-ROM, -R, -RW, etc.) Has input / output devices.
The
入力部25は、データの入力を行い、例えば、キーボード、マウス、タッチパネル等のポインティングデバイス、テンキー等の入力装置を有する。
表示部26は、CRTモニタ、液晶パネル等のディスプレイ装置であり、表示部26には、本実施形態の資料検索装置1において検索結果等が表示される。
The
The
周辺機器I/F(インタフェース)部27は、周辺機器を接続させるためのポートであり、USB、IEEE1394、RS−232C等で構成され、接続形態は有線、無線を問わない。
周辺機器I/F部27を介して、例えば、スキャナが接続され、利用者が持参したドキュメントの画像入力データを取り込むことが可能である。
バス28は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
The peripheral device I / F (interface)
For example, a scanner is connected via the peripheral device I /
The
資料検索装置1は、その他、画像データの入力用に、図示しないカメラを備えていてもよく、また、周辺機器I/F(インタフェース)部27に、図示しないスキャナが接続されていてもよい。
In addition, the
図2は、本発明の実施形態に係る資料検索装置1の機能構成例を示すブロック図である。
資料検索装置1は、ドキュメント入力部11、文字認識・書込み抽出部12、特徴語抽出部13、特徴語重み付け部14、検索対象資料の特徴語データベース15、関連度計算部16、検索結果表示部17、辞書データベース18等で構成される。
FIG. 2 is a block diagram illustrating a functional configuration example of the
The
検索対象資料の特徴語データベース15は、例えば、大学等の図書館が所蔵する書籍や資料を本実施の形態の資料検索装置1で検索するための検索インデックスを記憶するデータベースである。
詳しくは後述するが、検索インデックスは、各書籍、資料の特徴となる単語(特徴語)の重要度に関するデータであり、予め、各書籍や資料の書誌データや全文から辞書データベース18を使用して特徴語を抽出し、その重要度を求めることにより作成する。
The
As will be described in detail later, the search index is data relating to the importance of words (characteristic words) that are characteristic of each book and document. The
辞書データベース18は、例えば、何冊かの辞書に収録されている見出しを記憶したデータベースであり、特徴語の抽出に使用する。辞書データベース18に記憶する見出しの品詞は名詞のみでよいが、その他の品詞(動詞、形容詞等)も記憶させて使用してもよい。
The
ドキュメント入力部11は、例えば、スキャナ又はカメラで構成することができる。
ドキュメント入力部11は、利用者が持ち込むドキュメントを画像データとして取り込む。
The
The
ドキュメントは、例えば、大学等の授業のシラバスやレジュメ、関連資料、講義ノート、書籍のなかの1ページ、新聞や雑誌の記事等であり、印刷文字の印刷物であるが、利用者による手書きの書込みがあってもよい。
書込みは、例えば、下線やマーカーによるマーキング、囲み、手書き文字、不要な部分を除外するための×印等である。
Documents are, for example, university syllabuses and resumes, related materials, lecture notes, one page of books, newspapers and magazine articles, etc., which are printed matter of printed characters, but handwritten by users There may be.
The writing is, for example, marking with an underline or a marker, a box, a handwritten character, an X mark for excluding unnecessary portions, and the like.
文字認識・書込み抽出部12は、ドキュメント入力部11により資料検索装置1に取り込まれたドキュメントの画像データに文字認識処理を実行し、テキストデータに変換するとともに、利用者が手書きで書き込んだ書込みの種類と位置を抽出する。
また、書込みが手書き文字の場合には、手書き文字に対して文字認識処理を実行し、手書き文字もテキストデータに変換する。
The character recognition /
When the handwritten character is written, a character recognition process is executed for the handwritten character, and the handwritten character is converted into text data.
特徴語抽出部13は、文字認識・書込み抽出部12によって変換されたテキストデータから辞書データベース18を参照して特徴語を抽出する。
特徴語は、例えば、名詞の単語、及び、辞書データベース18にはない未知語等である。
The feature
The feature words are, for example, noun words and unknown words that are not in the
特徴語抽出部13は、まず、テキストデータを形態素解析し、そのなかの名詞の部分について辞書データベース18を検索して一致する単語(例えば、「歴史」、「女性」、「フェミニズム」、「日本」等)を特徴語として抽出する。また、形態素解析において名詞と判別され、辞書データベース18に一致する単語がない場合(例えば、「アベノミクス」等)には、未知語として特徴語に加える。
The feature
次に、特徴語重み付け部14は、特徴語抽出部13によって抽出された特徴語について重要度を求めるとともに、利用者による書込みの内容に応じて重要度に重み付けを行う。
重要度は、例えば、特徴語の出現頻度や、TF・IDF(Term Frequency・Inverse Document Frequency)値など、各種の重要度算出方法を利用できる。
Next, the feature
As the importance, for example, various importance calculation methods such as the appearance frequency of feature words and TF / IDF (Term Frequency / Inverse Document Frequency) values can be used.
重要度に出現頻度を用いる場合、例えば、下線やマーキング、囲み、手書き文字の書込みの場合、利用者が重要な部分、あるいは、興味・関心のある部分として書き込んでいると判断して、その部分に含まれる特徴語について、例えば2倍というように、正係数の重みをかけて出現頻度を計数する。
一方、ドキュメント中で×印の書込みがある部分については、その部分に含まれる特徴語は計数しないようにしてもよい。
When the appearance frequency is used for importance, for example, in the case of underlining, marking, enclosing, or writing of handwritten characters, it is determined that the user is writing as an important part or an interesting / interested part, and that part For example, the appearance frequency is counted by multiplying the weight of a positive coefficient, for example, twice.
On the other hand, the feature words included in the portion where the x mark is written in the document may not be counted.
特徴語重み付け部14による書込み部分についての特徴語の重要度の重み付けにより、利用者の興味・関心に合った適切な資料検索が可能になる。
By the weighting of the importance of the feature word for the written part by the feature
関連度計算部16は、特徴語重み付け部14により求められた利用者のドキュメントについての特徴データ(特徴語とその重要度のデータ)と、検索対象資料の特徴語データベース15に格納されている各検索対象資料の関連度を計算する。
The degree-of-
検索結果表示部17は、関連度計算部16で計算された関連度を元に、関連度の大きい検索対象資料の名称等を表示する。
The search
次に、図3に沿って検索対象資料の特徴語データベース15について説明する。
図3は、検索対象資料の特徴語データベース15の構成例を示す図である。
Next, the
FIG. 3 is a diagram illustrating a configuration example of the
検索対象資料の特徴語データベース15は、検索対象となる各書籍や資料についての検索用インデックス31から成る。P冊の検索対象資料についてP個の検索用インデックス31−1〜31−Pが特徴語データベース15に格納される。
検索用インデックス31は、図書館等の蔵書・資料が増えると、その都度、作成・追加され、特徴語データベース15が更新される。
The
The search index 31 is created / added as the number of collections / materials such as libraries increases, and the
検索用インデックス31は、例えば、検索対象資料ID、及び、特徴語の見出しとその重要度で構成される。
図3に示すように、例えば、検索対象資料ID「1」の検索用インデックス31−1は、特徴語として「女性」、「職業」、「カルチャー」、「日本」等の特徴語と、その重要度から成る。
The search index 31 includes, for example, a search target material ID, a feature word heading, and its importance.
As shown in FIG. 3, for example, the search index 31-1 for the search target material ID “1” includes feature words such as “female”, “profession”, “culture”, “Japan”, and the like. Consists of importance.
検索用インデックス31における特徴語の重要度は、検索対象資料の書誌データや資料の全文に含まれる特徴語の出現頻度を基本とするが、例えば、TF・IDF法等による重み付けを行ったものであることが望ましい。 The importance of feature words in the search index 31 is based on the appearance frequency of feature words included in the bibliographic data of the material to be searched and the full text of the material, but is weighted by, for example, the TF / IDF method. It is desirable to be.
TF・IDF法は公知の技術であり、詳細な説明は省略するが、TF・IDF法は、特定の文書に含まれる全単語の出現頻度における特定の単語の出現頻度の割合に関する値(TF)と、全文書数のなかの当該特定の単語を含む文書数の割合に関する値(IDF)とに基づいた出現頻度を求める方法である。TF・IDF法によれば、例えば、「これ」、「その」のようにどの文書にでも多く出現する単語の出現頻度は抑えられ、特定の文書にのみ多く出現する単語の出現頻度は大きくなる。 The TF / IDF method is a well-known technique and will not be described in detail. However, the TF / IDF method is a value (TF) related to the ratio of the appearance frequency of a specific word to the appearance frequency of all words included in the specific document. And the appearance frequency based on the value (IDF) relating to the ratio of the number of documents including the specific word in the total number of documents. According to the TF / IDF method, for example, the appearance frequency of words that frequently appear in any document such as “this” and “that” is suppressed, and the appearance frequency of words that frequently appear only in a specific document increases. .
図4は、利用者が資料検索装置1に入力する入力ドキュメント33の例を示す図である。
入力ドキュメント33には、印刷文字35による記事が印刷されているとともに、利用者が手書きで書き込んだ書込みマーク37、手書き文字39が描画されている。
FIG. 4 is a diagram illustrating an example of the input document 33 that the user inputs to the
In the input document 33, an article by the print character 35 is printed, and a writing mark 37 and a
図4の入力ドキュメント例33は、記事A〜Dが印刷されており、利用者が書込みマーク37a〜37d、手書き文字39を書き込んだものである。
書込みマーク37は、例えば、マーカーによるマーキング37a(書込みマークa)、下線37b(書込みマークb)、囲み37c(書込みマークc)、×印37d(書込みマークd)等である。
In the input document example 33 of FIG. 4, articles A to D are printed, and the user has written writing marks 37 a to 37 d and
The writing mark 37 is, for example, a
マーキング37a、下線37b、囲み37cは、利用者が重要と考えた部分に書き込むものであり、その部分に含まれる特徴語の重要度は大きくなるよう重み付けすればよい。
また、×印37dは、利用者が必要ないと考えた部分に書き込むものであり、その部分に含まれる特徴語は除外するようにすればよい。
The
Further, the
また、手書き文字39は、利用者が重要と考えた文または文章と考えられ、そのなかに含まれる特徴語は重要であり、重要度が大きくなるよう重み付けする。
The
次に、本実施の形態に係る資料検索装置1の処理の流れを説明する。
図5は、資料検索装置1の処理の流れを示すフローチャートである。
Next, the flow of processing of the
FIG. 5 is a flowchart showing a processing flow of the
まず、資料検索装置1の制御部21は、入力ドキュメント33の画像を取り込む(ステップ101)。
例えば、周辺機器I/F部27に接続されたスキャナにより入力ドキュメント33の画像を読み取り、記憶部22に格納する。
First, the
For example, the image of the input document 33 is read by a scanner connected to the peripheral device I /
入力ドキュメント33の取り込み方は、スキャナに限ることなく、例えば、利用者に携帯端末等のカメラで入力ドキュメント33を撮影させ、ネットワークを介してその画像を資料検索装置1に送らせ、通信制御部24を介して受信し、記憶部22に格納するようにしてもよい。
The method of capturing the input document 33 is not limited to the scanner. For example, the user can photograph the input document 33 with a camera such as a portable terminal and send the image to the
次に、制御部21は、取り込んだ画像データに対して文字認識処理を実行し、入力ドキュメント33の印刷文字35及び手書き文字39をテキストデータに変換する(ステップ102)。
文字認識処理は、OCR(Optical Character Recognition)等の公知の技術を使用すればよい。
手書き文字に対する文字認識処理により抽出されたテキストデータには、手書き文字であることを示すフラグを付しておくとよい。
Next, the
For the character recognition process, a known technique such as OCR (Optical Character Recognition) may be used.
The text data extracted by the character recognition process for handwritten characters may be attached with a flag indicating that it is a handwritten character.
次に、制御部21は、利用者が書き込んだ書込みマーク37を抽出し、その種類と位置を求める(ステップ103)。
書込みの種類(マーキング37a、下線37b、囲み37c、×印37d)を想定して入力ドキュメント33の画像から抽出を行う。
Next, the
Extraction from the image of the input document 33 is performed assuming the type of writing (marking 37a,
例えば、マーキング37aの場合は、テキスト部分と重なったほぼ矩形の形状を抽出する。
また、下線37bの場合は、テキストに重ならないほぼ直線の形状を抽出する。
また、囲み37cの場合は、文字以外の閉曲線の形状を抽出する。
また、×印37dの場合は、斜めの交わる2直線の形状を抽出する。
For example, in the case of the
In the case of the
In the case of the
Further, in the case of the
ステップ103で抽出した書込みマーク37の種類と位置のデータは、書込みマーク・データ41として記憶部22に格納する。
図6は、書込みマーク・データ41の構成例を示す図である。
書込みマーク・データ41は、入力ドキュメント33の識別番号である入力ドキュメントID、及び、当該入力ドキュメント33に含まれる書込みの識別番号を示すマークNo、書込みマーク37の種類を示す書込みマークID、当該書込みマークの位置データ等で構成される。
The type and position data of the write mark 37 extracted in step 103 is stored in the
FIG. 6 is a diagram illustrating a configuration example of the write mark data 41.
The write mark data 41 includes an input document ID that is an identification number of the input document 33, a mark No that indicates the identification number of writing included in the input document 33, a write mark ID that indicates the type of the write mark 37, and the write It consists of mark position data.
位置データは、例えば、入力ドキュメント33の左上部を原点とする二次元座標である。
マーキング37aの場合、ほぼ矩形の対角の頂点の座標、下線37bの場合、直線の両端の座標、囲み37cの場合、囲みの閉曲線の(最小x座標、最小y座標)と(最大x座標、最大y座標)、×印37dの場合、2直線の(最小x座標、最小y座標)と(最大x座標、最大y座標)を位置データとすることができる。
The position data is, for example, two-dimensional coordinates with the upper left corner of the input document 33 as the origin.
In the case of the
次に、制御部21は、テキストデータを形態素解析する(ステップ104)。
すなわち、テキストデータを意味のある単語に区切り、辞書データベース18を利用して品詞を識別する。
Next, the
That is, the text data is divided into meaningful words and the part of speech is identified using the
次に、制御部21は、形態素解析された単語のなかの名詞、及び、辞書データベース18で検索できない未知語を特徴語として抽出する(ステップ105)。
図7は、入力ドキュメント33のテキストデータから抽出された特徴語43の例を示す図である。
図7に示すように、テキストデータに含まれる特徴語が抽出される。
また、手書き文字39の部分のテキストデータから抽出された特徴語には、その旨のフラグを付しておく。
Next, the
FIG. 7 is a diagram illustrating an example of the feature word 43 extracted from the text data of the input document 33.
As shown in FIG. 7, feature words included in the text data are extracted.
In addition, a flag indicating that is added to the feature word extracted from the text data of the
次に、制御部21は、各特徴語の重み付け重要度を計数し、入力ドキュメント33の特徴データを作成する(ステップ106)。
重み付け重要度は、図6に示した書込みマーク・データ41及び、図8に示す重み付け倍率45を元に、テキストデータから抽出された特徴語の出現頻度を求めて計数し、重要度を求める。
Next, the
The weighting importance is obtained by counting the appearance frequency of feature words extracted from the text data based on the writing mark data 41 shown in FIG. 6 and the weighting magnification 45 shown in FIG.
図8は、重み付け倍率45の例を示す図である。
例えば、書込みマーク37がマーキング37a及び下線37bの場合、マーキング37a及び下線37bの位置に含まれる特徴語の出現頻度を2.0倍として、書込みマーク37が囲み37cの場合、囲みの位置に含まれる特徴語の出現頻度を1.7倍として計数する。
また、書込みマーク37が×印37dの場合、×印の位置の範囲に含まれる特徴語の重み付け倍率を0にして、計数しないようにする。
更に、手書き文字39の場合、手書き文字としてフラグが付されている特徴語の出現頻度に、例えば、2.5倍の重み付けをして計数する。
FIG. 8 is a diagram illustrating an example of the weighting magnification 45.
For example, when the writing mark 37 is the
When the writing mark 37 is an
Furthermore, in the case of the
図9は、ステップ106により作成された特徴語データ47の例を示す図である。重要度として出現頻度を使用した場合について示している。
入力ドキュメント33の特徴データ47は、特徴語と重み付け出現頻度(重み付け重要度)で構成される。
重みを付すことにより、重み付け出現頻度の値は、実際に入力ドキュメント33に含まれる特徴語の出現頻度(カッコ内の数値)と異なり、増減した数値になる。
FIG. 9 is a diagram illustrating an example of the feature word data 47 created in step 106. The case where the appearance frequency is used as the importance is shown.
The feature data 47 of the input document 33 includes feature words and weighted appearance frequency (weighted importance).
By assigning weights, the value of the weighted appearance frequency becomes an increased or decreased numerical value, unlike the appearance frequency of the feature word actually included in the input document 33 (the numerical value in parentheses).
以上のように、本実施形態の資料検索装置1における特徴データ47は、利用者の書込みマーク37及び手書き文字39に応じて重み付けされ、利用者の興味・関心、重要と考えている特徴語をより的確に現わすデータとなり、より的確な資料検索が可能になる。
As described above, the feature data 47 in the
次に、制御部21は、入力ドキュメント33の特徴データ47と、特徴語データベース15の各検索対象資料の検索用インデックス31の関連度を算出する(ステップ107)。
関連度の計算には、例えば、公知の技術であるコサイン類似度を用いればよい。
Next, the
For the calculation of the degree of association, for example, a cosine similarity that is a known technique may be used.
図10は、特徴語データ47と検索対象資料の検索用インデックス31の関連度を説明する図である。
コサイン類似度は、検索用インデックス31のベクトル51と、特徴データ47のベクトル53が成す角度θであり、この角度θが小さいほど類似度、すなわち、2つのベクトルの関連度が高いことを示す。
FIG. 10 is a diagram illustrating the degree of association between the feature word data 47 and the search index 31 of the search target material.
The cosine similarity is an angle θ formed by the vector 51 of the search index 31 and the vector 53 of the feature data 47. The smaller the angle θ, the higher the similarity, that is, the higher the degree of association between the two vectors.
図10では、説明を簡単化するために、3種類の特徴語についての3次元のベクトルを例に説明しているが、各ベクトル51、53の要素は、検索対象資料、及び、入力ドキュメント33に含まれる複数の特徴語の重要度(重み付き)である。
関連度を示す角度θの大きさは、検索用インデックス31のベクトル51と、入力ドキュメント33の特徴データ47のベクトル53の内積を計算することにより求める。
In FIG. 10, in order to simplify the explanation, a three-dimensional vector for three types of feature words is described as an example, but the elements of the vectors 51 and 53 are the search target material and the input document 33. Is the importance (weighted) of a plurality of feature words included in.
The magnitude of the angle θ indicating the relevance is obtained by calculating the inner product of the vector 51 of the search index 31 and the vector 53 of the feature data 47 of the input document 33.
次に、制御部21は、ステップ107で計算された関連度の値を比較し、関連度の高い検索対象資料の識別番号を元に資料名等を検索し、表示部26に表示する(ステップ108)。
Next, the
図11は、検索結果の出力画面55の例を示す図である。
資料検索装置1の表示部26に、利用者が提示した入力ドキュメント33との関連度が高い文献、書籍、資料の名称等が表示される。
FIG. 11 is a diagram illustrating an example of the search result output screen 55.
On the
以上のように、本実施形態に係る資料検索装置1は、利用者が持参したドキュメント33をスキャナで読み取ることにより、当該ドキュメントとの関連度が高い検索対象資料を、特徴語の重み付き出現頻度を尺度として検索し、表示することが可能になる。
As described above, the
また、本実施形態に係る資料検索装置1は、利用者がドキュメントに書込みマーク37や手書き文字39を書き込むことにより、その部分の特徴語の出現頻度に書込みマーク37の種類に応じた重みを付け、より利用者の関心・興味に合致した検索対象資料を検索することを可能にする。
In addition, the
以上の説明において、本実施の形態に係る資料検索装置1は1台の装置として説明したが、スキャナ等の画像読み取り装置110と、OCR等の抽出装置120と、検索処理を行うサーバ130からなる資料検索システム10として構成してもよい。
In the above description, the
図12は、資料検索システム10のシステム構成例を示す図である。
図12に示すように、資料検索システム10は、画像読み取り装置110、抽出装置120、サーバ130が、例えばネットワーク140を介して通信可能に接続された構成である。
FIG. 12 is a diagram illustrating a system configuration example of the material search system 10.
As shown in FIG. 12, the material search system 10 has a configuration in which an
画像読み取り装置110は、例えば、スキャナで構成でき、利用者が持参する書込みを含むドキュメント33を読み取る。
読み取られたドキュメント画像データは、ネットワーク140を介して抽出装置120に送られる。
The
The read document image data is sent to the
抽出装置120は、例えば、OCR装置で構成できる。
抽出装置120は、ドキュメント画像データを受信し、印刷文字35の認識処理及び手書き文字39の認識処理を行い、テキストデータを作成するとともに、ドキュメント33に書き込まれた書込みマーク37を抽出し書込みマーク・データ41を作成する。
作成したテキストデータ及び書込みマーク・データ41は、ネットワーク140を介してサーバ3に送られる。
The
The extracting
The created text data and write mark data 41 are sent to the
サーバ3は、検索対象資料から作成された特徴語データベース15及び辞書データベース18を具備する。
サーバ3は、汎用コンピュータ等で構成でき、図5のフローチャートのステップ104〜108の処理を実行する。
The
The
すなわち、サーバ3は、抽出装置120から受信したテキストデータから、辞書データベース18を用いて特徴語を抽出する処理を行い(ステップ104、105)、抽出装置120から受信した書込みマーク・データ41を元に、抽出した特徴語の重み付き重要度を算出して特徴データを作成し(ステップ106)、特徴語データベース15の各検索インデックスと特徴データの関連度を計算し(ステップ107)、関連度の高い検索対象資料を利用者に提示する(ステップ108)。
That is, the
以上の説明において、利用者が、携帯端末やパーソナルコンピュータ等からドキュメント33の画像をインターネット等のネットワークを介して資料検索システム10に送り、送られたドキュメント画像を抽出装置120、サーバ130で処理し、検索結果をインターネット等のネットワークを介して携帯端末やパーソナルコンピュータに送り、表示部に検索結果を表示させるようにしてもよい。
In the above description, the user sends an image of the document 33 from a portable terminal, personal computer, or the like to the material retrieval system 10 via a network such as the Internet, and the sent document image is processed by the
また、以上の説明においては、特徴語として名詞及び未知語を使用すると説明したが、その他の品詞の単語も使用するようにしてもよい。 In the above description, nouns and unknown words are used as feature words. However, other parts of speech may be used.
また、検索対象資料の特徴語データベース15における特徴語の出現頻度は、TF・IDF法による重み付けを行なうことが望ましいが、特徴語の出現頻度を用いずに、特徴語の出現の有無を示す2値ベクトルで表現してもよい。
また、特徴語の出現頻度の代わりに、隣り合って出現する特徴語の共起頻度(単語Nグラム)を要素とするベクトルを用いるようにしてもよい。
Further, the appearance frequency of the feature word in the
Moreover, you may make it use the vector which makes the element co-occurrence frequency (word N-gram) of the feature word which adjoins instead of the appearance frequency of a feature word.
以上、添付図を参照しながら、本発明の実施の形態を説明したが、本発明の技術的範囲は、前述した実施の形態に左右されない。当業者であれば、特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。 As mentioned above, although embodiment of this invention was described referring an accompanying drawing, the technical scope of this invention is not influenced by embodiment mentioned above. It is obvious for those skilled in the art that various modifications or modifications can be conceived within the scope of the technical idea described in the claims. It is understood that it belongs.
1………資料検索装置
10………資料検索システム
11………ドキュメント入力部
12………文字認識・書込み抽出部
13………特徴語抽出部
14………特徴語重み付け部
15………検索対象資料の特徴語データベース
16………関連度計算部
17………検索結果表示部
18………辞書データベース
31………検索用インデックス
33………入力ドキュメント
35………印刷文字
37………書込みマーク
39………手書き文字
41………書込みマーク・データ
45………重み付き倍率
47………入力ドキュメント33の特徴データ
DESCRIPTION OF
Claims (9)
書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、
前記書込みの種類と位置を抽出する書込み抽出手段と、
検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、
前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、
前記書込みの種類と位置とを用いて前記第2の特徴語の重要度を算出し、前記テキストデータの前記特徴語データを作成する特徴データ作成手段と、
前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、
を具備することを特徴とする資料検索装置。 In a material retrieval device that retrieves materials based on the degree of association with feature word data,
Text extraction means for extracting text data by performing character recognition processing on a document image including writing;
Write extraction means for extracting the type and position of the write;
Storage means for storing a search index including a first feature word of the search target material and its importance;
Feature word extraction means for extracting a second feature word from the text data;
Calculating the importance of the second feature word using the type and position of writing, and feature data creating means for creating the feature word data of the text data;
Relevance calculation means for calculating relevance between the search index and the feature word data;
A material retrieval apparatus comprising:
書込みを含むドキュメント画像を読み取り、読み取った画像を送信する画像読み取り装置と、
前記ドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、前記書込みの種類と位置を抽出する書込み抽出手段と、を備え、抽出したデータを送信する抽出装置と、
検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、前記書込みの種類と位置とを用いて前記第2の特徴語の重要度を算出し、前記テキストデータの前記特徴語データを作成する特徴データ作成手段と、前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段と、を備えるサーバと、
を具備することを特徴とする資料検索システム。 In a material retrieval system that retrieves materials based on the degree of association with feature word data,
An image reading device for reading a document image including writing and transmitting the read image;
A text extraction means for performing character recognition processing on the document image and extracting text data; and a writing extraction means for extracting the type and position of the writing; and an extraction device for transmitting the extracted data;
A storage means for storing a first feature word of the search target material and a search index including its importance; a feature word extraction means for extracting a second feature word from the text data; and the type and position of the writing Calculating the degree of importance of the second feature word by using the feature data creating means for creating the feature word data of the text data, and the relationship for calculating the degree of association between the search index and the feature word data A server comprising: a degree calculation means;
A material retrieval system comprising:
書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出ステップと、
前記書込みの種類と位置を抽出する書込み抽出ステップと、
検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶ステップと、
前記テキストデータから第2の特徴語を抽出する特徴語抽出ステップと、
前記書込みの種類と位置とを用いて前記第2の特徴語の重要度を算出し、前記テキストデータの前記特徴語データを作成する特徴データ作成ステップと、
前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算ステップと、
を含むことを特徴とする資料検索方法。 A material retrieval method that is performed by a material retrieval device that retrieves materials based on the degree of association with feature word data,
A text extraction step of extracting text data by performing character recognition processing on a document image including writing;
A write extraction step for extracting the type and position of the write;
A storage step of storing a search index including a first feature word of the search target material and its importance;
A feature word extraction step of extracting a second feature word from the text data;
Calculating a degree of importance of the second feature word using the type and position of writing, and a feature data creating step of creating the feature word data of the text data;
A relevance calculating step for calculating a relevance between the search index and the feature word data;
A material retrieval method characterized by including:
前記コンピュータを、
書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、
前記書込みの種類と位置を抽出する書込み抽出手段と、
検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、
前記テキストデータから第2の特徴語を抽出する特徴語抽出手段と、
前記書込みの種類と位置とを用いて前記第2の特徴語の重要度を算出し、前記テキストデータの前記特徴語データを作成する特徴データ作成手段と、
前記検索用インデックスと前記特徴語データとの関連度を計算する関連度計算手段、
として機能させるためのプログラム。
A program for causing a computer to function as a material retrieval device that retrieves material based on the degree of association with feature word data,
The computer,
Text extraction means for extracting text data by performing character recognition processing on a document image including writing;
Write extraction means for extracting the type and position of the write;
Storage means for storing a search index including a first feature word of the search target material and its importance;
Feature word extraction means for extracting a second feature word from the text data;
Calculating the importance of the second feature word using the type and position of writing, and feature data creating means for creating the feature word data of the text data;
Relevance calculation means for calculating relevance between the search index and the feature word data;
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014056283A JP6303669B2 (en) | 2014-03-19 | 2014-03-19 | Document retrieval device, document retrieval system, document retrieval method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014056283A JP6303669B2 (en) | 2014-03-19 | 2014-03-19 | Document retrieval device, document retrieval system, document retrieval method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015179385A true JP2015179385A (en) | 2015-10-08 |
JP6303669B2 JP6303669B2 (en) | 2018-04-04 |
Family
ID=54263390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014056283A Active JP6303669B2 (en) | 2014-03-19 | 2014-03-19 | Document retrieval device, document retrieval system, document retrieval method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6303669B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291871A (en) * | 2017-06-15 | 2017-10-24 | 北京百度网讯科技有限公司 | Matching degree appraisal procedure, equipment and the medium of many domain informations based on artificial intelligence |
JP2019508761A (en) * | 2016-03-31 | 2019-03-28 | ドロップボックス, インコーポレイテッド | Intelligent identification and presentation of digital documents |
JP2020067831A (en) * | 2018-10-24 | 2020-04-30 | Solize株式会社 | Text processing method and text processing device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003196294A (en) * | 2001-12-26 | 2003-07-11 | Toshiba Corp | Knowledge analyzing system and method |
JP2006133880A (en) * | 2004-11-02 | 2006-05-25 | Canon Inc | Information processor and information processing method |
JP2006190060A (en) * | 2005-01-06 | 2006-07-20 | Kyocera Mita Corp | Database retieval method, database retieval program, and original processor |
JP2009098763A (en) * | 2007-10-15 | 2009-05-07 | Hitachi Ltd | Handwritten annotation management apparatus and interface |
-
2014
- 2014-03-19 JP JP2014056283A patent/JP6303669B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003196294A (en) * | 2001-12-26 | 2003-07-11 | Toshiba Corp | Knowledge analyzing system and method |
JP2006133880A (en) * | 2004-11-02 | 2006-05-25 | Canon Inc | Information processor and information processing method |
JP2006190060A (en) * | 2005-01-06 | 2006-07-20 | Kyocera Mita Corp | Database retieval method, database retieval program, and original processor |
JP2009098763A (en) * | 2007-10-15 | 2009-05-07 | Hitachi Ltd | Handwritten annotation management apparatus and interface |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019508761A (en) * | 2016-03-31 | 2019-03-28 | ドロップボックス, インコーポレイテッド | Intelligent identification and presentation of digital documents |
CN107291871A (en) * | 2017-06-15 | 2017-10-24 | 北京百度网讯科技有限公司 | Matching degree appraisal procedure, equipment and the medium of many domain informations based on artificial intelligence |
CN107291871B (en) * | 2017-06-15 | 2021-02-19 | 北京百度网讯科技有限公司 | Matching degree evaluation method, device and medium for multi-domain information based on artificial intelligence |
US11481656B2 (en) | 2017-06-15 | 2022-10-25 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for evaluating a matching degree of multi-domain information based on artificial intelligence, device and medium |
JP2020067831A (en) * | 2018-10-24 | 2020-04-30 | Solize株式会社 | Text processing method and text processing device |
JP7324577B2 (en) | 2018-10-24 | 2023-08-10 | Solize株式会社 | Text processing method and text processing device |
Also Published As
Publication number | Publication date |
---|---|
JP6303669B2 (en) | 2018-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jockers et al. | Text‐mining the humanities | |
CN111797214A (en) | FAQ database-based problem screening method and device, computer equipment and medium | |
US9842110B2 (en) | Content based similarity detection | |
US20180181544A1 (en) | Systems for Automatically Extracting Job Skills from an Electronic Document | |
JP5159772B2 (en) | Document search apparatus and document search method | |
US11023721B2 (en) | Document information evaluating device, document information evaluating method, and document information evaluating program | |
KR102059743B1 (en) | Method and system for providing biomedical passage retrieval using deep-learning based knowledge structure construction | |
US9679050B2 (en) | Method and apparatus for generating thumbnails | |
US9507805B1 (en) | Drawing based search queries | |
JP4997892B2 (en) | SEARCH SYSTEM, SEARCH METHOD, AND SEARCH PROGRAM | |
WO2014050774A1 (en) | Document classification assisting apparatus, method and program | |
WO2016114790A1 (en) | Reading difficulty level based resource recommendation | |
JP2014186395A (en) | Document preparation support device, method, and program | |
Wei et al. | LDA-based word image representation for keyword spotting on historical Mongolian documents | |
JP6303669B2 (en) | Document retrieval device, document retrieval system, document retrieval method, and program | |
López-Escobedo et al. | Analysis of intertextual distances using multidimensional scaling in the context of authorship attribution | |
Dahlberg et al. | A distributional semantic online lexicon for linguistic explorations of societies | |
CN104462083A (en) | Content comparison method and device and information processing system | |
Dinov et al. | Natural language processing/text mining | |
CN110717029A (en) | Information processing method and system | |
Saabni et al. | Keywords image retrieval in historical handwritten Arabic documents | |
Liu et al. | Context-based online medical terminology navigation | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
JP2011150603A (en) | Category theme phrase extracting device, hierarchical tag attaching device, method, and program, and computer-readable recording medium | |
JP6612291B2 (en) | Similar document search device, similar document search method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6303669 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |