JP5484113B2 - Document image related information providing apparatus and document image related information acquisition system - Google Patents

Document image related information providing apparatus and document image related information acquisition system Download PDF

Info

Publication number
JP5484113B2
JP5484113B2 JP2010029521A JP2010029521A JP5484113B2 JP 5484113 B2 JP5484113 B2 JP 5484113B2 JP 2010029521 A JP2010029521 A JP 2010029521A JP 2010029521 A JP2010029521 A JP 2010029521A JP 5484113 B2 JP5484113 B2 JP 5484113B2
Authority
JP
Japan
Prior art keywords
related information
word
document image
important
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010029521A
Other languages
Japanese (ja)
Other versions
JP2011165092A (en
Inventor
寿子 塩原
考 藤村
章裕 宮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010029521A priority Critical patent/JP5484113B2/en
Publication of JP2011165092A publication Critical patent/JP2011165092A/en
Application granted granted Critical
Publication of JP5484113B2 publication Critical patent/JP5484113B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、書籍等の文書の一部を撮影して取得した画像データを解析し、画像データに含まれる文字情報に関連する電子的な情報を利用者が簡単に取得できるシステムに関するものである。   The present invention relates to a system that allows a user to easily acquire electronic information related to character information included in image data by analyzing image data acquired by photographing a part of a document such as a book. .

書籍やパンフレット等、印刷された文書を読んでいる時に、それに関連する詳しい情報を知りたい場合、インターネットに接続されたコンピュータが利用できる場合には、ネット検索等により、すぐに情報を得ることができる。   When reading a printed document such as a book or pamphlet, if you want to know more detailed information related to it, or if you can use a computer connected to the Internet, you can obtain the information immediately by searching the Internet. it can.

外出中などでコンピュータを利用できない場合でも、インターネットに接続できる端末を携帯していれば、知りたい情報を文字入力することにより、情報を得ることができるが、一般的に携帯端末における文字入力は煩雑であるため、あまり好まれてはいない。   Even if you are out of the office and cannot use your computer, if you have a terminal that can be connected to the Internet, you can get information by entering the information you want to know. Due to its complexity, it is not preferred.

ただし、印刷された文書にQRコードや電子透かしが付与されていれば、文字入力をしなくてもQRコードや電子透かしを認識できるカメラ付き携帯端末を使って、インターネット上の電子データへのリンクを取得し、電子データにアクセスできる。   However, if the printed document has a QR code or digital watermark attached, you can use a camera-equipped mobile device that can recognize the QR code and digital watermark without entering characters to link to electronic data on the Internet. Can access and access electronic data.

下記の特許文献1には、画像に入力された情報を電子透かしとして埋め込み、電子透かしを埋め込んだ画像を印刷して配布することにより、利用者が端末で画像を取り込むだけで透かしとして埋め込まれた情報を読み出す技術が記載されている。   In the following Patent Document 1, information input to an image is embedded as a digital watermark, and the image embedded with the digital watermark is printed and distributed, so that the user can simply capture the image and embed it as a watermark. A technique for reading information is described.

また、非特許文献1には、印刷された後に関連リンクを得る方法として、文書に関する情報を予めインデクシングしておき、カメラ付き端末で文書を撮影し、文字認識機能により抽出した単語でインデックスを検索する方法が提案されている。   In Non-Patent Document 1, as a method for obtaining a related link after printing, information related to the document is indexed in advance, the document is photographed with a camera-equipped terminal, and an index is searched with words extracted by the character recognition function. A method has been proposed.

特開2004-357149号公報JP 2004-357149 A

文字認識と単語レイアウト解析を用いた紙文書とディジタルデータの情報リンク手法、嶺 竜治他、電子情報通信学会論文誌D、Vol.J929D,No.6,pp.868−875Information link method between paper documents and digital data using character recognition and word layout analysis, Ryuji Tsuji et al., IEICE Transactions D, Vol. J929D, no. 6, pp. 868-875

上記のように、印刷された文書から関連情報へのリンクを取得できるようにするためには、予めQRコードや電子透かしを文書に付与したり、文書を電子化してリンク情報への関連付けをしておく必要があった。   As described above, in order to be able to obtain links to related information from printed documents, QR codes and digital watermarks are assigned to documents in advance, or documents are digitized and linked to link information. It was necessary to keep.

印刷された文書が特定の目的に基づくパンフレットやポスターの場合は、利用者が知りたいことと作成者が提供したい情報が合致していることが想定されやすいため、予めQRコードを付与したり、固定的なリンク情報の関連付けをすることは現実的であるが、一般的な書籍や雑誌、新聞などを読んでいる人がインターネットで調べたいと想定されることは非常に膨大であって、関連する情報に関するリンクをあらかじめインデクシングして関連付けすること等は現実的であるとは言えない。   If the printed document is a pamphlet or poster based on a specific purpose, it is easy to assume that the information that the user wants to know matches the information that the creator wants to provide. It is realistic to associate fixed link information, but it is very enormous that people reading general books, magazines, newspapers, etc. are expected to look up on the Internet. It is not realistic to link the information related to the information to be indexed in advance.

本発明は上記を鑑みてなされたものであり、外出中等、インターネットに接続されたコンピュータが利用できない状況において、印刷された書籍等に含まれるキーワードの中にインターネット上に有意義な情報がある場合に、利用者が携帯している端末等から簡単にその情報を利用できるようにする技術を提供することを目的とする。   The present invention has been made in view of the above, and in a situation where a computer connected to the Internet is not available, such as when going out, when there is meaningful information on the Internet among keywords included in printed books, etc. It is an object of the present invention to provide a technique that allows a user to easily use the information from a terminal carried by the user.

上記の課題を解決するために、本発明は、文字列の画像を含む画像データを、通信ネットワークに接続されたユーザ端末から受信する受信手段と、前記受信手段により受信した画像データに対して文字認識処理を行って、当該画像データから文字列を抽出する文字認識手段と、前記文字認識手段により抽出された文字列を解析して、当該文字列から単語群を抽出する単語情報抽出手段と、単語群と分野とを対応付けた概念辞書を格納する概念辞書格納手段と、分野毎に当該分野の単語と重要度とを対応付けた各分野毎重要語辞書を格納する各分野毎重要語辞書格納手段と、前記単語情報抽出手段により抽出された単語群について、前記概念辞書を参照することにより、当該単語群の分野を判定し、当該単語群の中のそれぞれの単語について、前記判定された分野に対応する各分野毎重要語辞書を参照することにより当該単語の重要度を求め、求められた重要度が所定の条件を満たす単語を、重要キーワードとして選択する重要度判定手段と、前記重要度判定手段により選択された重要キーワードに関連する情報へのリンク情報を含む関連情報を生成する関連情報生成手段と、前記関連情報生成手段により生成された関連情報を、前記ユーザ端末に送信する送信手段とを備えることを特徴とする文書画像関連情報提供装置として構成される。 In order to solve the above-described problems, the present invention provides a receiving unit that receives image data including an image of a character string from a user terminal connected to a communication network, and a character for the image data received by the receiving unit. A character recognition unit that performs a recognition process and extracts a character string from the image data; a word information extraction unit that analyzes the character string extracted by the character recognition unit and extracts a word group from the character string; A concept dictionary storage means for storing a concept dictionary in which a word group and a field are associated with each other, and a field-specific word dictionary for each field in which a field-specific word dictionary in which a word in the field is associated with an importance is stored for each field storage means, for the word group extracted by said word information extracting means, by referring to the concept dictionary, to determine the areas of the word groups, each of the words in the word group, It obtains the importance of the word by referring to the areas each importance dictionary corresponding to serial the determined field, significance determination means severity determined is a word which satisfies a predetermined condition, is selected as important keywords And related information generating means for generating related information including link information to information related to the important keyword selected by the importance level determining means, and related information generated by the related information generating means, the user terminal A document image related information providing apparatus, comprising: a transmission means for transmitting to the document image.

前記関連情報生成手段は、前記重要キーワードの前記画像データ内での位置情報を取得し、当該位置情報を前記リンク情報と対応付けて前記関連情報に含め、当該関連情報を受信したユーザ端末は、当該ユーザ端末の表示部に表示される画像上の前記位置情報に対応する重要キーワードを強調表示し、当該強調表示された当該重要キーワードがユーザにより選択された場合に、当該位置情報に対応づけられたリンク情報を用いて、前記重要キーワードに関連する情報を取得して、前記表示部に表示するようにしてもよい。   The related information generation unit acquires position information of the important keyword in the image data, includes the position information in association with the link information, and receives the related information. When an important keyword corresponding to the position information on the image displayed on the display unit of the user terminal is highlighted, and the highlighted important keyword is selected by the user, it is associated with the position information. The link information may be used to acquire information related to the important keyword and display it on the display unit.

前記文書画像関連情報提供装置は、単語と重要度とを対応付けたデータである重要語辞書を格納する重要語辞書格納手段を備え、前記重要度判定手段は、前記単語情報抽出手段により抽出された単語群の中のそれぞれの単語について、前記重要語辞書を参照することにより重要度を求め、重要度が所定の条件を満たす単語を、前記重要キーワードとして選択するようにしてもよい。   The document image related information providing apparatus includes an important word dictionary storing unit that stores an important word dictionary that is data in which a word and an importance are associated with each other, and the importance determining unit is extracted by the word information extracting unit. For each word in the word group, the importance may be obtained by referring to the important word dictionary, and a word satisfying a predetermined degree of importance may be selected as the important keyword.

前記文書画像関連情報提供装置は、検索エンジンのクエリログを格納するクエリログ格納手段と、前記クエリログ格納手段に格納されたクエリログに含まれる単語の出現頻度を重要度として用いることにより、前記重要語辞書を生成し、当該重要語辞書を前記重要語辞書格納部に格納する重要語辞書生成手段とを備えてもよい。   The document image related information providing apparatus uses a query log storage unit that stores a query log of a search engine, and an appearance frequency of a word included in the query log stored in the query log storage unit as an importance level, so that the important word dictionary is used. You may provide the important word dictionary production | generation means which produces | generates and stores the said important word dictionary in the said important word dictionary storage part.

また、前記文字認識手段は、前記画像データから前記文字列を抽出するとともに、各文字の位置情報を取得し、前記重要度判定手段は、前記位置情報を用いて、前記単語情報抽出手段により抽出された単語群における各単語の画像内における位置を検出し、画像の中心に近い単語ほど重要度が高いと判定するようにしてもよい。   The character recognition unit extracts the character string from the image data and acquires position information of each character, and the importance level determination unit extracts the character information using the position information. The position in the image of each word in the set of words may be detected, and the word closer to the center of the image may be determined to be more important.

また、前記文書画像関連情報提供装置は、前記重要度判定手段が用いる前記条件を示すデータと、前記関連情報生成手段が前記関連情報を生成する際に用いる生成方法の条件を示すデータとを格納する条件データ格納手段と、前記条件データを設定するための画面データを前記ユーザ端末に送信し、当該ユーザ端末から受信する条件データを、前記条件データ格納手段に格納する条件設定手段とを備えてもよい。   Further, the document image related information providing apparatus stores data indicating the condition used by the importance level determination unit and data indicating a generation method condition used when the related information generation unit generates the related information. Condition data storage means for transmitting the screen data for setting the condition data to the user terminal, and condition setting means for storing the condition data received from the user terminal in the condition data storage means Also good.

本発明によれば、印刷された文書を読んでいる人が、文書内の文字列に関するより詳細な情報をインターネット上から取得したい場合、カメラ付き携帯端末等のユーザ端末でその文書を撮影し、文書画像関連情報提供装置に送信するだけで、重要なキーワード群に関するリンク情報等を受信でき、検索したい単語を文字入力するような煩雑な操作無しに、有用な情報を得ることができる。   According to the present invention, when a person reading a printed document wants to obtain more detailed information about the character string in the document from the Internet, the user captures the document with a user terminal such as a mobile terminal with a camera, By only transmitting to the document image related information providing apparatus, link information relating to an important keyword group can be received, and useful information can be obtained without a complicated operation such as character input of a word to be searched.

また、本発明によれば、PC端末上で文書を読んでいる場合でも、気になったキーワードに関する情報を、煩雑な操作無しにすばやく得ることができる。また、単語の種類によって適切なリンク先を取得するよう条件設定をしておくことにより、利用者は明示的に検索先を毎回指定したりすることなく、効率的に必要な情報を収集することができる。   Further, according to the present invention, even when a document is read on a PC terminal, it is possible to quickly obtain information on a keyword that is of interest without complicated operations. In addition, by setting conditions to acquire appropriate link destinations according to word types, users can efficiently collect necessary information without having to explicitly specify search destinations each time. Can do.

本発明の実施の形態に係る文書画像関連情報取得システムの全体構成図である。1 is an overall configuration diagram of a document image related information acquisition system according to an embodiment of the present invention. 本発明の実施の形態に係る文書画像関連情報取得システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the document image related information acquisition system which concerns on embodiment of this invention. 実施例1の処理内容を説明するための図である。FIG. 6 is a diagram for explaining processing contents of the first embodiment. 実施例2における文書画像取得部12の機能構成図である。10 is a functional configuration diagram of a document image acquisition unit 12 in Embodiment 2. FIG. 実施例2の処理内容を説明するための図である。FIG. 6 is a diagram for explaining processing contents of a second embodiment. 実施例3における文書画像関連情報提供装置2の機能構成図である。It is a function block diagram of the document image relevant-information provision apparatus 2 in Example 3. FIG. 重要語辞書格納部26に格納される重要語辞書データの一例を示す図である。It is a figure which shows an example of the important word dictionary data stored in the important word dictionary storage part 26. FIG. 検索クエリログの一例を示す図である。It is a figure which shows an example of a search query log. 実施例4における重要度算出方法を説明するための図である。FIG. 10 is a diagram for explaining an importance calculation method according to a fourth embodiment. 実施例5における文書画像関連情報提供装置2の機能構成図である。FIG. 10 is a functional configuration diagram of a document image related information providing apparatus 2 according to a fifth embodiment. 実施例5における文書画像関連情報提供装置2の動作を説明するためのフローチャートである。16 is a flowchart for explaining the operation of the document image related information providing apparatus 2 in the fifth embodiment. 実施例6における文書画像関連情報提供装置2の機能構成図である。FIG. 10 is a functional configuration diagram of a document image related information providing apparatus 2 according to a sixth embodiment.

以下、図面を参照して本発明の実施の形態を説明する。   Embodiments of the present invention will be described below with reference to the drawings.

(文書画像関連情報取得システムの基本構成)
図1に、本発明の実施の形態に係る文書画像関連情報取得システムの全体構成を示す。図1に示すように、本実施の形態に係る文書画像関連情報取得システムは、ユーザ端末1と、文書画像関連情報提供装置2とを備え、これらがインターネット等の通信ネットワーク3で接続されて構成されている。
(Basic configuration of document image related information acquisition system)
FIG. 1 shows the overall configuration of a document image related information acquisition system according to an embodiment of the present invention. As shown in FIG. 1, the document image related information acquisition system according to the present embodiment includes a user terminal 1 and a document image related information providing device 2, which are connected via a communication network 3 such as the Internet. Has been.

ユーザ端末1は、通信部11、文書画像取得部12、関連情報表示部13を備える。通信部11は、通信ネットワーク3を介して他の装置との間でデータの送受信を行う機能部である。文書画像取得部12は、例えば、カメラにより文書を撮影することにより文書の画像データを取得し、メモリ等の記憶手段に格納するとともに、当該画像データを通信部11を介して文書画像関連情報提供装置2に送信する機能部である。関連情報表示部13は、ディスプレイ等の表示部を含み、通信ネットワーク3を介して取得した関連情報を用いて、画面表示を行うための機能部である。   The user terminal 1 includes a communication unit 11, a document image acquisition unit 12, and a related information display unit 13. The communication unit 11 is a functional unit that transmits and receives data to and from other devices via the communication network 3. For example, the document image acquisition unit 12 acquires image data of a document by photographing the document with a camera, stores the image data in a storage unit such as a memory, and provides the document image related information through the communication unit 11. This is a functional unit that transmits to the device 2. The related information display unit 13 includes a display unit such as a display, and is a functional unit for performing screen display using related information acquired through the communication network 3.

ユーザ端末1は、メモリやハードディスク等の記憶手段及びCPUを備えるコンピュータの機能と、画像を取得することができる機能とを備えた装置であればどのような装置でもよい。当該コンピュータに、各機能部に対応する処理を行うためのプログラムを搭載することによりユーザ端末1を実現できる。後述するように、ユーザ端末1として、例えば、カメラ付き携帯電話機等の携帯端末や、ビデオメモリを備えるPC端末等を使用できる。   The user terminal 1 may be any device as long as it has a function of a computer including a storage unit such as a memory and a hard disk and a CPU, and a function capable of acquiring an image. The user terminal 1 can be realized by installing a program for performing processing corresponding to each functional unit on the computer. As will be described later, as the user terminal 1, for example, a portable terminal such as a camera-equipped cellular phone, a PC terminal including a video memory, or the like can be used.

文書画像関連情報提供装置2は、通信部21、文字認識部22、単語情報抽出部23、重要度判定部24、及び関連情報生成部25を有する。   The document image related information providing apparatus 2 includes a communication unit 21, a character recognition unit 22, a word information extraction unit 23, an importance level determination unit 24, and a related information generation unit 25.

通信部21は、通信ネットワーク3を介して他の装置とデータの送受信を行うための機能部である。文字認識部22は、ユーザ端末1から受信する画像データに対して文字認識処理を行って、文字列等を抽出する機能部である。単語情報抽出部23は、文字認識部22により抽出された文字列の中から、単語群等を抽出する機能部である。重要度判定部24は、単語情報抽出部23により抽出された単語群に対し、重要度判定を行って、重要度の高いキーワードである重要キーワードを抽出する機能部である。関連情報生成部25は、重要度判定部24により抽出された重要キーワードに関連する情報へのリンク情報等を含む関連情報を生成し、当該関連情報をユーザ端末1に送信する機能部である。   The communication unit 21 is a functional unit for transmitting and receiving data to and from other devices via the communication network 3. The character recognition unit 22 is a functional unit that performs character recognition processing on image data received from the user terminal 1 and extracts a character string and the like. The word information extraction unit 23 is a functional unit that extracts a word group and the like from the character string extracted by the character recognition unit 22. The importance level determination unit 24 is a functional unit that performs importance level determination on the word group extracted by the word information extraction unit 23 and extracts an important keyword that is a keyword having a high importance level. The related information generation unit 25 is a functional unit that generates related information including link information to information related to the important keyword extracted by the importance level determination unit 24 and transmits the related information to the user terminal 1.

文書画像関連情報提供装置2は、メモリやハードディスク等の記憶手段及びCPUを備える一般的なコンピュータに、各機能部に対応する処理を行うためのプログラムを搭載することにより実現できる。   The document image related information providing apparatus 2 can be realized by mounting a program for performing processing corresponding to each functional unit on a general computer including a storage unit such as a memory and a hard disk and a CPU.

当該プログラムは、可搬メモリやディスク等の記録媒体から上記コンピュータにインストールしてもよいし、ネットワーク上のサーバから上記コンピュータにダウンロードし、インストールすることとしてもよい。また、文書画像関連情報提供装置2は、各機能部を別々のコンピュータで実現する等により、複数のコンピュータを通信ネットワークで接続して実現することもできる。   The program may be installed in the computer from a recording medium such as a portable memory or a disk, or may be downloaded from a server on a network to the computer and installed. The document image related information providing apparatus 2 can also be realized by connecting a plurality of computers via a communication network, such as by realizing each functional unit with a separate computer.

(システムの基本動作)
次に、本発明の実施の形態に係る文書画像関連情報取得システムの基本的な動作について、図2のフローチャートを参照して説明する。
(Basic operation of the system)
Next, the basic operation of the document image related information acquisition system according to the embodiment of the present invention will be described with reference to the flowchart of FIG.

まず、ユーザ端末1の文書画像取得部12が、書籍等の文書の画像データを取得し(ステップ1)、取得した画像データを通信部11を介して文書画像関連情報提供装置2に送信する(ステップ2)。   First, the document image acquisition unit 12 of the user terminal 1 acquires image data of a document such as a book (step 1), and transmits the acquired image data to the document image related information providing apparatus 2 via the communication unit 11 ( Step 2).

文書画像関連情報提供装置2において、通信部21が画像データを受信し(ステップ3)、画像データがメモリ等の記憶手段に格納されるとともに、当該画像データは、文字認識部22に渡される。   In the document image related information providing apparatus 2, the communication unit 21 receives image data (step 3), the image data is stored in a storage unit such as a memory, and the image data is passed to the character recognition unit 22.

文字認識部22は、文字認識機能により画像データを解析し、画像データの元になった文書に含まれている文字列を抽出する(ステップ4)。ここでの文字認識機能とは、例えば、一般的なOCR(Optical Character Reader:光学式文字読取装置)で使われているような、文字の画像データから文字を識別してテキストデータを取得する機能のことである。   The character recognition unit 22 analyzes the image data using the character recognition function, and extracts a character string included in the document from which the image data is based (step 4). The character recognition function here is a function that recognizes characters from character image data and obtains text data, such as used in general OCR (Optical Character Reader). That is.

次に、文字認識部22により抽出された文字列は単語情報抽出部23に渡され、単語情報抽出部23が、形態素解析機能やPart-of-speech解析機能を用いることにより、文字列から単語(単語群)及び品詞情報を抽出する(ステップ5)。ここで、形態素解析とは、例えば特開平4-64170号公報に記載されているような、文章を意味のある単語に区切り、単語及び品詞情報を抽出する技術である。   Next, the character string extracted by the character recognition unit 22 is transferred to the word information extraction unit 23, and the word information extraction unit 23 uses the morpheme analysis function and the part-of-speech analysis function, so that the word is extracted from the character string. (Word group) and part-of-speech information are extracted (step 5). Here, the morphological analysis is a technique for extracting a word and a part of speech information by dividing a sentence into meaningful words as described in, for example, Japanese Patent Laid-Open No. 4-64170.

抽出された単語群は重要度判定部24に渡され、重要度判定部24は、当該単語群に対して重要度のスコアリングを行い(ステップ6)、予め決められた条件に基づき、単語群から重要キーワードを選択する(ステップ7)。この条件とは、例えば、重要度が高いほうから上位N件等である。   The extracted word group is transferred to the importance level determination unit 24, and the importance level determination unit 24 performs importance level scoring on the word group (step 6), and the word group is based on a predetermined condition. An important keyword is selected from (Step 7). This condition is, for example, the top N items in descending order of importance.

重要度判定部24により選択された重要キーワードは、関連情報生成部25に渡される。関連情報生成部25は、各重要キーワードに関連する情報を得ることのできるリンク情報(例えばWikipediaのその単語に関するページのURLや、検索エンジンに投げた結果のURL等)を含む情報を関連情報として生成し(ステップ8)、生成した関連情報を通信部21を介してユーザ端末1に送信する(ステップ9)。   The important keyword selected by the importance level determination unit 24 is passed to the related information generation unit 25. The related information generation unit 25 uses, as related information, information including link information (for example, URL of a page related to the word of Wikipedia, URL of a result thrown to a search engine, etc.) that can obtain information related to each important keyword. It produces | generates (step 8) and transmits the produced | generated relevant information to the user terminal 1 via the communication part 21 (step 9).

ユーザ端末1は関連情報を受信し(ステップ10)、関連情報表示部13が、当該関連情報を用いて、例えば、文書を撮影して得た画像内での重要キーワードを示すための情報や、重要キーワードに対応するリンク先から取得した情報等をディスプレイに表示する。   The user terminal 1 receives the related information (step 10), and the related information display unit 13 uses the related information, for example, information for indicating an important keyword in an image obtained by photographing a document, Information acquired from the link destination corresponding to the important keyword is displayed on the display.

以下、上記の基本構成及び基本処理動作に基づくより具体的な処理例を説明した実施例を示す。以下で説明する各実施例における基本的なシステム構成、及び処理の流れは、それぞれ図1、図2に示すとおりであるが、詳細な構成及び処理内容はそれぞれの実施例で異なる。以下、実施例毎に、基本構成と異なる部分を中心に説明する。   Hereinafter, an embodiment will be described in which more specific processing examples based on the above basic configuration and basic processing operation are described. The basic system configuration and processing flow in each embodiment described below are as shown in FIGS. 1 and 2, respectively, but the detailed configuration and processing contents are different in each embodiment. Hereinafter, each embodiment will be described with a focus on differences from the basic configuration.

なお、以下の各実施例は、他の任意の実施例と組み合わせて実施することが可能である。また、以下の各実施例において、辞書を格納する格納部は、文書画像関連情報提供装置2に備えてもよいし、外部に備え、通信ネットワーク3を介してアクセスすることとしてもよい。   Each of the following embodiments can be implemented in combination with any other embodiment. In each of the following embodiments, a storage unit for storing a dictionary may be provided in the document image related information providing apparatus 2 or may be provided outside and accessed via the communication network 3.

(実施例1)
まず、実施例1について説明する。実施例1は、ユーザ端末1としてカメラ付き携帯端末(例えば、携帯電話機、スマートフォン等)を利用する例である。以下、本実施例の処理の流れを、図2に示す処理の流れに沿って説明する。
Example 1
First, Example 1 will be described. The first embodiment is an example in which a camera-equipped mobile terminal (for example, a mobile phone, a smartphone, or the like) is used as the user terminal 1. Hereinafter, the processing flow of the present embodiment will be described along the processing flow shown in FIG.

本実施例では、書籍等の紙媒体に印刷された文書を、ユーザ端末1に付属のカメラで撮影することにより、画像データが取得され(ステップ1)、ユーザ端末1は、取得された画像データを文書画像関連情報提供装置2に送信する(ステップ2)。   In this embodiment, image data is acquired by photographing a document printed on a paper medium such as a book with a camera attached to the user terminal 1 (step 1), and the user terminal 1 acquires the acquired image data. Is transmitted to the document image related information providing apparatus 2 (step 2).

文書画像関連情報提供装置2では、図2に示すステップ3〜ステップ8の処理を行って、関連情報を生成し、当該関連情報をユーザ端末1に送信し(ステップ9)、ユーザ端末1にて、関連情報を用いた表示が行われる(ステップ10、11)。   The document image related information providing apparatus 2 performs the processing from step 3 to step 8 shown in FIG. 2 to generate related information, and transmits the related information to the user terminal 1 (step 9). The display using the related information is performed (steps 10 and 11).

図3は、本実施例の処理内容を示す図であり、図3の右側に、ユーザ端末1の表示画面が示され、当該画面上に、文書画像関連情報提供装置2から受信した関連情報により作成された情報が表示されている。
図3に示すように、本実施例では、画面の一部の領域(図3の例では、画面のおおよそ上半分の領域)に、カメラで撮影した文書画像が表示されており、この画像に含まれる重要キーワードが強調表示されている。このような表示を行うことにより、ユーザは、どれが重要キーワードであるかを把握できる。
FIG. 3 is a diagram showing the processing contents of the present embodiment. The display screen of the user terminal 1 is shown on the right side of FIG. 3, and the relevant information received from the document image related information providing apparatus 2 is displayed on the screen. The created information is displayed.
As shown in FIG. 3, in this embodiment, a document image taken by a camera is displayed in a partial area of the screen (in the example of FIG. 3, the upper half of the screen). The important keywords included are highlighted. By performing such a display, the user can grasp which is an important keyword.

また、ユーザが強調表示されたキーワードのうちの一つを選択(カーソル移動・選択、画面タッチ等)することで、そのキーワードに関連する情報を画面の残り半分の領域に表示できることが示されている。   In addition, it is shown that when the user selects one of the highlighted keywords (cursor movement / selection, screen touch, etc.), information related to the keyword can be displayed in the remaining half of the screen. Yes.

本実施例では、図3に示すような表示を可能とするために、文書画像関連情報提供装置2における関連情報生成部25が、重要度判定部24で選択された重要キーワードの画像内における座標情報を算出する。この座標情報は、例えば、重要キーワードの画像内での相対位置、すなわち重要キーワードの領域の左上座標と右下座標である。   In the present embodiment, in order to enable the display as shown in FIG. 3, the related information generating unit 25 in the document image related information providing apparatus 2 coordinates the important keyword selected by the importance determining unit 24 in the image. Calculate information. This coordinate information is, for example, the relative position of the important keyword in the image, that is, the upper left coordinate and the lower right coordinate of the important keyword region.

そして、関連情報生成部25は、当該座標情報と、重要キーワードに対応するリンク情報とを含む関連情報をユーザ端末1に送信する。ユーザ端末1における関連情報表示部13は、受信した関連情報に含まれる座標情報に従って、画像上に何らかのマークを重畳表示することで強調表示を実現する。図3の例では、半透明の色付きBOXを、座標情報に対応する重要キーワード上に重畳表示することで強調表示を実現している。   Then, the related information generation unit 25 transmits related information including the coordinate information and link information corresponding to the important keyword to the user terminal 1. The related information display unit 13 in the user terminal 1 realizes highlighting by superimposing and displaying some mark on the image according to the coordinate information included in the received related information. In the example of FIG. 3, highlighting is realized by superimposing a translucent colored BOX on an important keyword corresponding to coordinate information.

また、関連情報表示部13は、ユーザ端末1の画面上でなされた操作情報(カーソル移動・選択、画面タッチ等)を受け取り、当該操作情報により判別される画像の座標情報に対応するリンク情報を用いて情報を取得し、取得した情報を表示する。これにより、図3に示した下半分の表示を行うことができる。   Further, the related information display unit 13 receives operation information (cursor movement / selection, screen touch, etc.) made on the screen of the user terminal 1, and displays link information corresponding to the coordinate information of the image determined by the operation information. To obtain information and display the obtained information. Thereby, the display of the lower half shown in FIG. 3 can be performed.

(実施例2)
次に、実施例2について説明する。本実施例では、ユーザ端末1として一般的なPC端末を使用している。
(Example 2)
Next, Example 2 will be described. In this embodiment, a general PC terminal is used as the user terminal 1.

本実施例のユーザ端末1における文書画像取得部12は、ディスプレイに表示される画像の画像データを格納するビデオメモリから、ユーザにより指定された範囲及びタイミングの画像データを取得し、取得した画像データを文書画像関連情報提供装置2に送信する。   The document image acquisition unit 12 in the user terminal 1 according to the present embodiment acquires image data in a range and timing designated by the user from a video memory that stores image data of an image displayed on the display, and acquires the acquired image data. Is transmitted to the document image related information providing apparatus 2.

図4に、本実施例に係る文書画像取得部12の機能構成例を示す。図4には、ユーザ端末1における操作部14(マウス、キーボード等)と、ビデオメモリ15も示されている。図4に示すように、本実施例に係る文書画像取得部12は、操作部14から指示情報(画像の範囲を示す情報、及び、画像を取得する命令を含む)を受け取る指示情報取得部121と、指示情報を取得した時点における、指示情報に含まれる範囲情報の範囲に該当する画像データをビデオメモリから取得する画像データ取得部122と、取得した画像を通信部11に渡す画像データ送信部123とを備えている。このような文書画像取得部12は、図4に示す機能を備えたアプリケーションプログラムを用いることにより実現可能である。   FIG. 4 shows a functional configuration example of the document image acquisition unit 12 according to the present embodiment. FIG. 4 also shows an operation unit 14 (mouse, keyboard, etc.) and a video memory 15 in the user terminal 1. As illustrated in FIG. 4, the document image acquisition unit 12 according to the present embodiment receives instruction information (including information indicating an image range and an instruction to acquire an image) from the operation unit 14. And an image data acquisition unit 122 that acquires image data corresponding to the range of the range information included in the instruction information at the time when the instruction information is acquired, and an image data transmission unit that passes the acquired image to the communication unit 11 123. Such a document image acquisition unit 12 can be realized by using an application program having the functions shown in FIG.

このような文書画像取得部12を備えることにより、例えば図5に示すように、ユーザ端末1のディスプレイに表示された画像内において、ユーザがある文字列に関する関連情報を欲しいと考えた場合に、ユーザが当該文字列を含む領域(図5に示される枠17)を指定することにより、関連情報を取得することができる。   By providing such a document image acquisition unit 12, for example, as shown in FIG. 5, in the image displayed on the display of the user terminal 1, when the user wants related information regarding a certain character string, When the user designates an area including the character string (frame 17 shown in FIG. 5), the related information can be acquired.

ユーザ端末1のビデオメモリ上から画像データを取得することにより、紙媒体をカメラで撮影する時に発生する歪みや採光条件による陰などの影響が全く無いという利点がある。これにより、文字認識精度を向上させることができ、文書画像関連情報提供装置2において、文字の誤認識の率を極めて低くすることが可能になる。   By acquiring image data from the video memory of the user terminal 1, there is an advantage that there is no influence such as distortion caused when a paper medium is photographed by a camera or shade caused by lighting conditions. Thereby, it is possible to improve the character recognition accuracy, and in the document image related information providing apparatus 2, it is possible to extremely reduce the rate of erroneous character recognition.

また、本実施例において、文書画像取得部12を構成するアプリケーションプログラムを、文字列を含む画像を表示しているアプリケーションプログラムとは別のアプリケーションプログラムとすることにより、ユーザ端末1の画面上に表示されている文字列であれば、どのようなアプリケーションプログラムにより表示されている文字列であっても、文字列を取得することが可能となる。   In this embodiment, the application program constituting the document image acquisition unit 12 is displayed on the screen of the user terminal 1 by making it an application program different from the application program displaying an image including a character string. Any character string displayed by any application program can be acquired as long as the character string is displayed.

なお、GUI(graphical user interface)を持つ、現在一般的に普及しているOSでは、GUI画面の内容はビデオメモリ上に格納されており、ビデオメモリから画像データを取得する機能は、各OSで提供されている。例えば、Windows(登録商標)上では、Win32API:BitBlt等を使うことで、ビデオメモリからのキャプチャを実現することができる。   Note that in the currently popular OS with GUI (graphical user interface), the contents of the GUI screen are stored in the video memory, and the function to acquire image data from the video memory is in each OS. Is provided. For example, on Windows (registered trademark), capture from a video memory can be realized by using Win32API: BitBlt or the like.

(実施例3)
次に、実施例3を説明する。図6に、本実施例における文書画像関連情報提供装置2の機能構成図を示す。図6に示すように、本実施例における文書画像関連情報提供装置2は、図1に示した機能部に加えて、重要語辞書格納部26と、重要語辞書生成部27とを備える。
図7に、重要語辞書格納部26に格納される重要語辞書データの一例を示す。図7の例では、重要語辞書データは、単語と、その重要度を示す値とが対応付けられたデータである。本実施例での重要度判定部24は、単語情報抽出部23から渡された単語群について、この重要語辞書を参照することによりその重要度を算出する。なお、重要語辞書に存在しない単語は重要度ゼロとみなされる。また、ユーザ端末1に通知する重要キーワードの数に制限を設けた場合等には、単語群の中で重要語辞書に存在した単語のうち、所定の閾値以上の重要度を持つ単語だけを重要キーワードとして選択することができる。
(Example 3)
Next, Example 3 will be described. FIG. 6 shows a functional configuration diagram of the document image related information providing apparatus 2 in the present embodiment. As shown in FIG. 6, the document image related information providing apparatus 2 according to the present exemplary embodiment includes a keyword dictionary storage unit 26 and a keyword dictionary generation unit 27 in addition to the function units shown in FIG. 1.
FIG. 7 shows an example of important word dictionary data stored in the important word dictionary storage unit 26. In the example of FIG. 7, the important word dictionary data is data in which a word is associated with a value indicating its importance. The importance level determination unit 24 in this embodiment calculates the importance level of the word group passed from the word information extraction unit 23 by referring to this important word dictionary. A word that does not exist in the important word dictionary is regarded as having zero importance. In addition, when the number of important keywords to be notified to the user terminal 1 is limited, among words existing in the important word dictionary in the word group, only words having an importance level equal to or higher than a predetermined threshold are important. Can be selected as a keyword.

例えば、単語情報抽出部23から渡された単語群にABCとXYZが含まれていた場合、重要度判定部24は、重要語辞書を参照することにより、ABCとXYZの重要度をそれぞれ0.45、0.86として求める。そして、例えば、重要キーワード抽出閾値が0.8であった場合、XYZは重要キーワードとして選択されるが、ABCは重要キーワードとして選択されない。   For example, when ABC and XYZ are included in the word group passed from the word information extraction unit 23, the importance level determination unit 24 refers to the important word dictionary to set the importance levels of ABC and XYZ to 0. Calculated as 45, 0.86. For example, when the important keyword extraction threshold is 0.8, XYZ is selected as an important keyword, but ABC is not selected as an important keyword.

本実施例における重要語辞書生成部27は、重要語辞書データを生成し、それを重要語辞書格納部26に格納する機能を有する。具体的には、本実施例における重要語辞書生成部27は、検索クエリログを用いて重要語辞書を生成する。   The keyword dictionary generation unit 27 in the present embodiment has a function of generating keyword dictionary data and storing it in the keyword dictionary storage unit 26. Specifically, the keyword dictionary generation unit 27 in this embodiment generates a keyword dictionary using a search query log.

検索クエリログは、検索エンジン(サーバ)に送信されたクエリに関する情報を記録した情報であり、検索が実行された日時、発行されたクエリの内容、クエリの発行元IPアドレス、リファラー(リンク元のページ)のURL等を含む。図8に、検索クエリログの一例を示す。   The search query log is information that records information related to the query sent to the search engine (server), the date and time when the search was executed, the contents of the issued query, the IP address of the query issuer, the referrer (link source page) ) URL etc. are included. FIG. 8 shows an example of the search query log.

検索クエリログの中の情報の中で、クエリに含まれるキーワード(図8の例では"台風情報"等)は、インターネット利用者の現在の興味関心事を反映していると考えることができるため、検索クエリログの中のクエリ内に含まれるキーワードの数をカウントすることで、キーワードの重要度の指標とすることができる。つまり、検索クエリログにおけるキーワードの出現頻度が高いほど、重要度を高く算出することができる。また、キーワードの重要度は0から1の間になるよう、正規化することもできる。   Among the information in the search query log, the keywords included in the query (such as “typhoon information” in the example of FIG. 8) can be considered to reflect the current interests of Internet users. By counting the number of keywords included in the query in the search query log, it can be used as an index of the importance of the keyword. That is, the higher the appearance frequency of the keyword in the search query log, the higher the importance can be calculated. Also, it is possible to normalize the keyword so that the importance is between 0 and 1.

例えば、単語群の中のABCという単語が100個、検索クエリログの中に存在し、XYZという単語が最も多くて1000個、検索クエリログの中に存在していた場合に、ABCの重要度を0.1、XYZの重要度を1と算出することができる。   For example, if the word ABC in the word group is 100 in the search query log, and the maximum number of XYZ is 1000 in the search query log, the ABC importance is 0. 1. The importance of XYZ can be calculated as 1.

重要語辞書生成部27は、通信ネットワーク3に接続された他のサーバから検索クエリログを取得し、メモリ等の記憶手段に格納して使用することができる。また、検索クエリログをオフラインで入手し、それを記憶手段に格納することとしてもよい。また、入手された検索クエリログの全部のデータを使ってもよいし、興味関心事の流行を反映するため、直近1週間等、検索クエリログのみを利用しても良い。   The keyword dictionary generation unit 27 can acquire a search query log from another server connected to the communication network 3 and store it in a storage unit such as a memory for use. Alternatively, the search query log may be obtained offline and stored in the storage means. Further, all data of the obtained search query log may be used, or only the search query log may be used for the most recent week or the like in order to reflect the trend of interest.

なお、本実施例では、検索クエリログを用いて重要語辞書を作成する例を説明したが、重要語辞書を作成するための元となるデータは、検索クエリログに限られるわけではない。ユーザの興味関心事を反映し得るデータであればどのようなデータを用いてもよい。   In the present embodiment, an example of creating a keyword dictionary using a search query log has been described. However, data used to create a keyword dictionary is not limited to a search query log. Any data that can reflect the interests of the user may be used.

また、本実施例では、予め重要語辞書データを重要語辞書格納部26に格納しておき、その重要語辞書データを用いて重要度算出を行う例を説明したが、重要度の算出方法はこれに限られるわけではなく、プログラムの処理により、重要度を判定できる方法であれば、他の種々の方法を用いることができる。   Further, in the present embodiment, an example in which important word dictionary data is stored in the important word dictionary storage unit 26 in advance and importance calculation is performed using the important word dictionary data has been described. The present invention is not limited to this, and various other methods can be used as long as the importance can be determined by processing of the program.

例えば、重要度判定部24が、単語情報抽出部23から渡された単語群の各々の単語を用いてインターネット検索を行い、検索されたインターネットサイトの頻度(検索されたサイトの数)でキーワードの重要度を算出することもできる。例えば、ABCという単語でインターネット検索を行った結果、10のサイトが検索され、XYZという単語でインターネット検索を行った結果、100のサイトが検索された場合、ABCの重要度は10とし、XYZの重要度を100とすることができる。そして、例えば、重要度が50以上のみを重要キーワードとして選択する場合、ABCは重要キーワードとして選択されず、XYZは、重要キーワードとして選択されることになる。   For example, the importance level determination unit 24 performs an Internet search using each word of the word group passed from the word information extraction unit 23, and the keyword search is performed based on the frequency of the searched Internet sites (the number of searched sites). The importance can also be calculated. For example, if 10 sites are searched as a result of performing an Internet search with the word ABC and 100 sites are searched as a result of performing an Internet search with the word XYZ, the importance of ABC is set to 10, and the XYZ The importance can be set to 100. For example, when only importance 50 or more is selected as an important keyword, ABC is not selected as an important keyword, and XYZ is selected as an important keyword.

(実施例4)
次に、実施例4を説明する。実施例4では、単語情報抽出部23により抽出された単語群の各単語の重要度を判定する際に、単語の位置情報を利用している。
(Example 4)
Next, Example 4 will be described. In the fourth embodiment, word position information is used when determining the importance of each word in the word group extracted by the word information extraction unit 23.

本実施例において、文字認識部22は、文字認識の結果として、認識された文字列と、その文字列の各文字の画像内での位置の情報を単語情報抽出部23に渡す。そして、単語情報抽出部23は、文字列から抽出された単語と、各単語の位置情報(例えば、単語を構成する各文字の左上端点の座標)、及び当該単語の品詞を重要度判定部24に渡す。   In this embodiment, the character recognizing unit 22 passes the recognized character string and the position information of each character in the image to the word information extracting unit 23 as a result of character recognition. Then, the word information extraction unit 23 determines the word extracted from the character string, the position information of each word (for example, the coordinates of the upper left end point of each character constituting the word), and the part of speech of the word as the importance determination unit 24. To pass.

重要度判定部24は、単語情報抽出部23から渡された単語群と品詞の情報に基づき、単語群から名詞(ただし、接尾辞以外)の単語を取得する。更に、重要度判定部24は、当該単語の各文字の位置情報を用いて、当該単語の重心位置(X,Y)を算出し、その重心位置が、画像の中心位置に近いほど重要度のスコアが高くなるような関数を用いてスコアリングを行い、そのスコアが高いほど重要度を高く算出する。つまり、画像の横と縦の長さをW,Hとすれば、(X,Y)と(W/2, H/2)との距離を算出し、この距離が小さいほど重要度を高くするように重要度を算出する。   The importance determination unit 24 acquires a noun (but not a suffix) word from the word group based on the word group and part of speech information passed from the word information extraction unit 23. Furthermore, the importance level determination unit 24 calculates the centroid position (X, Y) of the word using the position information of each character of the word, and the importance level is closer to the center position of the image. Scoring is performed using a function that increases the score, and the higher the score, the higher the importance. In other words, if the horizontal and vertical lengths of the image are W and H, the distance between (X, Y) and (W / 2, H / 2) is calculated, and the smaller the distance, the higher the importance. The importance is calculated as follows.

図9(a)、(b)は、本実施例における重要度算出方法を具体的に説明するための図である。図9(a)において、単語情報抽出部23により、名詞(ただし、接尾辞以外)と判定された単語が、点線で囲んである。重要度判定部24は、これらの各単語の重心(X,Y)を算出し、その重心が(W/2, H/2) に近いほどスコアが高くなるように重要度を算出する。   FIGS. 9A and 9B are diagrams for specifically explaining the importance calculation method in the present embodiment. In FIG. 9A, words determined as nouns (but not suffixes) by the word information extraction unit 23 are surrounded by dotted lines. The importance level determination unit 24 calculates the centroid (X, Y) of each word, and calculates the importance level so that the closer the centroid is to (W / 2, H / 2), the higher the score.

図9(b)は、各単語の重心座標と、そこから計算されたスコアの例であり、この例では、画像の中心(W/2, H/2)からの距離のログを取って正規化した結果をスコア(=重要度)として使用している。本例では、中心付近にある「場」がもっとも重要度の高いキーワードとなり、以下、「電子」「素数」の順に続く。   FIG. 9B is an example of the barycentric coordinates of each word and the score calculated therefrom. In this example, the distance from the center (W / 2, H / 2) of the image is taken and normalized. Results are used as scores (= importance). In this example, the “field” near the center is the keyword with the highest importance, and continues in the order of “electronic” and “prime number”.

なお、本実施例を実施例3と組み合わせて用いる場合には、例えば、実施例2で重要語辞書を用いて取得した重要度に、本実施例における位置情報に基づき得られたスコア(もしくは、当該スコアに所定の重み係数を乗算した値)を乗算した値を重要度として用いることができる。   When this embodiment is used in combination with the third embodiment, for example, the score obtained based on the position information in this embodiment (or the importance obtained using the important word dictionary in the second embodiment) (or A value obtained by multiplying the score by a predetermined weighting factor) can be used as the importance.

(実施例5)
次に、実施例5を説明する。図10に、本実施例の文書画像関連情報提供装置2の構成図を示し、図11に、本実施例の文書画像関連情報提供装置2の処理フローを示す。
(Example 5)
Next, Example 5 will be described. FIG. 10 shows a configuration diagram of the document image related information providing apparatus 2 of the present embodiment, and FIG. 11 shows a processing flow of the document image related information providing apparatus 2 of the present embodiment.

図10に示すように、本実施例では、文書画像関連情報提供装置2は、概念辞書データを格納する概念辞書格納部28と、各分野毎の重要語辞書データを格納する各分野毎重要語辞書格納部29を備える。   As shown in FIG. 10, in the present embodiment, the document image related information providing apparatus 2 includes a concept dictionary storage unit 28 that stores concept dictionary data, and a key word for each field that stores key word dictionary data for each field. A dictionary storage unit 29 is provided.

ここで、概念辞書とは、ある概念と他の概念との関係等を記述した辞書であり、本実施例では、概念辞書を適用することにより、単語群が表す分野を判定している。また、各分野毎の重要語辞書は、例えば、科学分野に特化した重要語辞書を含む、予め決めた分野毎の重要語辞書である。この辞書は、科学分野に対応するものであれば、例えば、図7に示すデータ構造で、単語の欄に科学技術分野の重要語が羅列された辞書である。   Here, the concept dictionary is a dictionary describing the relationship between a concept and other concepts, and in this embodiment, the field represented by the word group is determined by applying the concept dictionary. The important word dictionary for each field is a key word dictionary for each predetermined field including, for example, a key word dictionary specialized in the scientific field. If this dictionary corresponds to the scientific field, for example, the data structure shown in FIG. 7 is a dictionary in which important words in the scientific and technological field are listed in the word column.

図11の処理フローにおいて、ステップ5までは、基本構成における処理フローと同様である。ステップ61において、重要度判定部24は、単語情報抽出部により抽出された単語群(重要キーワードとその周辺単語を含む)を用いて概念辞書を検索することにより、画像データに示されている文書の内容の分野を判定する。なお、単語群を関連情報生成部25に渡し、関連情報生成部25が、概念辞書の検索を行ってもよい。   In the processing flow of FIG. 11, the process up to step 5 is the same as the processing flow in the basic configuration. In step 61, the importance level determination unit 24 searches the concept dictionary using the word group (including the important keyword and its peripheral words) extracted by the word information extraction unit, and thereby the document indicated in the image data. Determine the field of content. The word group may be passed to the related information generation unit 25, and the related information generation unit 25 may search the concept dictionary.

例えば、図9(a)に示した例において、「理論」「スピン」「電子」等を概念辞書に適用することにより、この文書の内容が科学分野について記述されていることが判定できる。   For example, in the example shown in FIG. 9A, by applying “theory”, “spin”, “electron”, etc. to the concept dictionary, it can be determined that the contents of this document are described in the scientific field.

そして、重要度判定部24は、汎用の重要語辞書を使用する代わりに、ステップ61において判定された分野に対応する重要語辞書を用いて、各単語の重要度を算出する(ステップ62)。これにより、例えば、図9(a)の中の「場」という単語に関して、科学分野の専門用語としての「場」という単語の重要度を評価することができる。   Then, the importance level determination unit 24 calculates the importance level of each word using the keyword dictionary corresponding to the field determined in step 61 instead of using the general-purpose keyword dictionary (step 62). Thereby, for example, regarding the word “place” in FIG. 9A, the importance of the word “place” as a technical term in the scientific field can be evaluated.

図9(a)に示した例では、「場」という語は、一般的にはそれほど重要度の高いキーワードではないと考えられるが、本実施例のように、概念辞書を用いて分野を判定することにより、文書の内容に適合したより適切な重要度を算出できる。   In the example shown in FIG. 9A, the word “place” is generally considered not to be a very important keyword, but the field is determined using the concept dictionary as in this embodiment. By doing so, it is possible to calculate a more appropriate degree of importance suitable for the content of the document.

図11において、ステップ7以降の処理は、基本構成における処理と同様である。   In FIG. 11, the processing after step 7 is the same as the processing in the basic configuration.

(実施例6)
次に、実施例6について説明する。実施例6は、重要キーワードの選択と関連情報の選択に関する処理の具体例である。
(Example 6)
Next, Example 6 will be described. Example 6 is a specific example of processing related to selection of important keywords and selection of related information.

図12に、本実施例における文書画像関連情報提供装置2の構成例を示す。本実施例では、文書画像関連情報提供装置2は、重要キーワードの選択と関連情報の選択等に関する条件データを格納する条件データ格納部30と、条件データ格納部30に格納する条件データ設定のための画面データをユーザ端末1に送り、受信した条件データを条件データ格納部30に格納する条件設定GUI部31を備える。   FIG. 12 shows a configuration example of the document image related information providing apparatus 2 in the present embodiment. In the present embodiment, the document image related information providing apparatus 2 is configured to store condition data related to selection of important keywords, selection of related information, and the like, and a condition data setting to be stored in the condition data storage unit 30. Is sent to the user terminal 1, and the condition setting GUI unit 31 for storing the received condition data in the condition data storage unit 30 is provided.

条件設定GUI部31の機能により、例えば、ユーザ端末1の表示部に、条件設定のためのGUI画面(Web画面)が表示され、ユーザは当該GUI画面を見ながら所望の条件を入力できる。   With the function of the condition setting GUI unit 31, for example, a GUI screen (Web screen) for setting conditions is displayed on the display unit of the user terminal 1, and the user can input desired conditions while viewing the GUI screen.

本実施例において条件データ格納部に格納される条件データの例としては、重要度判定部24が単語群から重要キーワードとして選択する単語の数の最大値、重要度の算出にあたっての位置情報の寄与度(前述した重み係数)、重要キーワードの候補として抽出する単語の品詞リスト、等がある。   Examples of condition data stored in the condition data storage unit in the present embodiment include the maximum number of words that the importance level determination unit 24 selects from the word group as an important keyword, and the contribution of position information in calculating the importance level. Degree (the weighting factor described above), a part-of-speech list of words to be extracted as important keyword candidates, and the like.

また、関連情報生成部25において、固有名詞を解析してそれが人名なのか地名なのか組織名なのかといった単語のプロファイル情報を抽出する固有表現抽出機能を備えることにより、関連情報生成部25が、作成する関連情報の種類を単語プロファイル情報によりカスタマイズしてもよい。ここでのカスタマイズの条件は条件データとして条件データ格納部30に格納しておく。   In addition, the related information generation unit 25 includes a specific expression extraction function that analyzes a proper noun and extracts word profile information such as whether it is a person name, a place name, or an organization name. The type of related information to be created may be customized by word profile information. The customization conditions here are stored in the condition data storage unit 30 as condition data.

カスタマイズとしては、例えば、重要キーワードのうちの特定のプロファイルの単語のみについて関連情報をユーザ端末1に提供する、重要キーワードが地名である場合には、所定のサイトにより提供される地図のURLを取得してユーザ端末1に提供する、等がある。このように、単語の種類によって適切なリンク先を取得するよう条件設定をしておくことが可能になり、利用者は明示的に検索先を毎回指定したりすることなく、効率的に必要な情報を収集することができる。   As customization, for example, related information is provided to the user terminal 1 only for words of a specific profile among important keywords. When the important keyword is a place name, a URL of a map provided by a predetermined site is acquired. And providing it to the user terminal 1. In this way, it is possible to set conditions to acquire an appropriate link destination according to the type of word, and the user can efficiently and efficiently need to specify the search destination every time. Information can be collected.

なお、固有表現抽出機能として、例えば、特開2009-86911 号公報に記載されているような技術を用いることが可能である。   For example, a technique described in Japanese Patent Application Laid-Open No. 2009-86911 can be used as the specific expression extraction function.

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。   The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.

1 ユーザ端末
2 文書画像関連情報提供装置
3 通信ネットワーク
11 通信部
12 文書画像取得部
13 関連情報表示部
14 操作部
15 ビデオメモリ
21 通信部
22 文字認識部
23 単語情報抽出部
24 重要度判定部
25 関連情報生成部
26 重要語辞書格納部
27 重要語辞書生成部
28 概念辞書格納部
29 各分野毎重要語辞書格納部
30 条件データ格納部
31 条件設定GUI部
121 指示情報取得部
122 画像データ取得部
123 画像データ送信部
DESCRIPTION OF SYMBOLS 1 User terminal 2 Document image related information provision apparatus 3 Communication network 11 Communication part 12 Document image acquisition part 13 Related information display part 14 Operation part 15 Video memory 21 Communication part 22 Character recognition part 23 Word information extraction part 24 Importance determination part 25 Related information generation unit 26 Important word dictionary storage unit 27 Important word dictionary generation unit 28 Concept dictionary storage unit 29 Important word dictionary storage unit 30 for each field Condition data storage unit 31 Condition setting GUI unit 121 Instruction information acquisition unit 122 Image data acquisition unit 123 Image data transmitter

Claims (8)

文字列の画像を含む画像データを、通信ネットワークに接続されたユーザ端末から受信する受信手段と、
前記受信手段により受信した画像データに対して文字認識処理を行って、当該画像データから文字列を抽出する文字認識手段と、
前記文字認識手段により抽出された文字列を解析して、当該文字列から単語群を抽出する単語情報抽出手段と、
単語群と分野とを対応付けた概念辞書を格納する概念辞書格納手段と、
分野毎に当該分野の単語と重要度とを対応付けた各分野毎重要語辞書を格納する各分野毎重要語辞書格納手段と、
前記単語情報抽出手段により抽出された単語群について、前記概念辞書を参照することにより、当該単語群の分野を判定し、当該単語群の中のそれぞれの単語について、前記判定された分野に対応する各分野毎重要語辞書を参照することにより当該単語の重要度を求め、求められた重要度が所定の条件を満たす単語を、重要キーワードとして選択する重要度判定手段と、
前記重要度判定手段により選択された重要キーワードに関連する情報へのリンク情報を含む関連情報を生成する関連情報生成手段と、
前記関連情報生成手段により生成された関連情報を、前記ユーザ端末に送信する送信手段と
を備えることを特徴とする文書画像関連情報提供装置。
Receiving means for receiving image data including an image of a character string from a user terminal connected to a communication network;
Character recognition means for performing character recognition processing on the image data received by the receiving means and extracting a character string from the image data;
Analyzing the character string extracted by the character recognition means, and extracting word information extraction means for extracting a word group from the character string,
Concept dictionary storage means for storing a concept dictionary in which word groups and fields are associated with each other;
Each field important word dictionary storage means for storing each field important word dictionary in which each field word and importance are associated with each field;
For the word group extracted by the word information extraction unit, the field of the word group is determined by referring to the concept dictionary, and each word in the word group corresponds to the determined field. obtains the importance of the word by referring to the areas each important word dictionary, and a significance determination means severity determined is a word which satisfies a predetermined condition, is selected as the important keywords,
Related information generating means for generating related information including link information to information related to the important keyword selected by the importance determining means;
A document image related information providing apparatus comprising: transmission means for transmitting related information generated by the related information generating means to the user terminal.
前記関連情報生成手段は、前記重要キーワードの前記画像データ内での位置情報を取得し、当該位置情報を前記リンク情報と対応付けて前記関連情報に含め、
当該関連情報を受信したユーザ端末は、当該ユーザ端末の表示部に表示される画像上の前記位置情報に対応する重要キーワードを強調表示し、当該強調表示された当該重要キーワードがユーザにより選択された場合に、当該位置情報に対応づけられたリンク情報を用いて、前記重要キーワードに関連する情報を取得して、前記表示部に表示する
ことを特徴とする請求項1に記載の文書画像関連情報提供装置。
The related information generation unit acquires position information of the important keyword in the image data, includes the position information in association with the link information, and includes the position information in the related information.
The user terminal that has received the related information highlights the important keyword corresponding to the position information on the image displayed on the display unit of the user terminal, and the highlighted important keyword is selected by the user. 2. The document image related information according to claim 1, wherein information related to the important keyword is acquired using link information associated with the position information and displayed on the display unit. Providing device.
前記文書画像関連情報提供装置は、単語と重要度とを対応付けたデータである重要語辞書を格納する重要語辞書格納手段を備え、
前記重要度判定手段は、前記単語情報抽出手段により抽出された単語群の中のそれぞれの単語について、前記重要語辞書を参照することにより重要度を求め、重要度が所定の条件を満たす単語を、前記重要キーワードとして選択する
ことを特徴とする請求項1又は2に記載の文書画像関連情報提供装置。
The document image related information providing device includes an important word dictionary storing means for storing an important word dictionary which is data in which a word and an importance are associated with each other.
The importance level determination means obtains an importance level for each word in the word group extracted by the word information extraction means by referring to the important word dictionary, and a word whose importance level satisfies a predetermined condition is obtained. The document image related information providing apparatus according to claim 1, wherein the document image related information providing apparatus is selected as the important keyword.
前記文書画像関連情報提供装置は、
検索エンジンのクエリログを格納するクエリログ格納手段と、
前記クエリログ格納手段に格納されたクエリログに含まれる単語の出現頻度を重要度として用いることにより、前記重要語辞書を生成し、当該重要語辞書を前記重要語辞書格納部に格納する重要語辞書生成手段と
を備えることを特徴とする請求項3に記載の文書画像関連情報提供装置。
The document image related information providing device includes:
Query log storage means for storing search engine query logs;
Generating the important word dictionary by generating the important word dictionary by using the appearance frequency of words included in the query log stored in the query log storage means as the importance, and storing the important word dictionary in the important word dictionary storage unit The document image related information providing apparatus according to claim 3, further comprising: means.
前記文字認識手段は、前記画像データから前記文字列を抽出するとともに、各文字の位置情報を取得し、
前記重要度判定手段は、前記位置情報を用いて、前記単語情報抽出手段により抽出された単語群における各単語の画像内における位置を検出し、画像の中心に近い単語ほど重要度が高いと判定する
ことを特徴とする請求項1ないし4のうちいずれか1項に記載の文書画像関連情報提供装置。
The character recognition means extracts the character string from the image data, acquires position information of each character,
The importance level determination unit detects the position in the image of each word in the word group extracted by the word information extraction unit using the position information, and determines that the word closer to the center of the image has a higher level of importance. document image related information providing apparatus according to any one of claims 1 to 4, characterized in that.
前記文書画像関連情報提供装置は、
前記重要度判定手段が用いる前記条件を示すデータと、前記関連情報生成手段が前記関連情報を生成する際に用いる生成方法の条件を示すデータとを格納する条件データ格納手段と、
前記条件データを設定するための画面データを前記ユーザ端末に送信し、当該ユーザ端末から受信する条件データを、前記条件データ格納手段に格納する条件設定手段と
を備えることを特徴とする請求項1ないしのうちいずれか1項に記載の文書画像関連情報提供装置。
The document image related information providing device includes:
Condition data storage means for storing data indicating the condition used by the importance level determination means and data indicating a generation method condition used when the related information generation means generates the related information;
2. A condition setting unit that transmits screen data for setting the condition data to the user terminal and stores the condition data received from the user terminal in the condition data storage unit. 6. The document image related information providing apparatus according to any one of items 5 to 5 .
請求項1ないしのうちいずれか1項に記載の文書画像関連情報提供装置と、前記ユーザ端末とを備える文書画像関連情報取得システムであって、前記ユーザ端末は、
文書を撮影することにより、当該文書の画像データを取得する文書画像取得手段と、
前記文書画像取得手段により取得された画像データを前記文書画像関連情報提供装置へ送信する送信手段と、
前記関連情報を前記文書画像関連情報提供装置から受信する受信手段と、
前記受信した関連情報を用いて、前記重要キーワードに関連する情報を表示する関連情報表示手段と、を備える
ことを特徴とする文書画像関連情報取得システム。
A document image related information acquisition system comprising: the document image related information providing apparatus according to any one of claims 1 to 6 ; and the user terminal, wherein the user terminal includes:
Document image acquisition means for acquiring image data of the document by photographing the document;
Transmitting means for transmitting the image data acquired by the document image acquiring means to the document image related information providing apparatus;
Receiving means for receiving the related information from the document image related information providing device;
A document image related information acquisition system comprising: related information display means for displaying information related to the important keyword using the received related information.
請求項1ないしのうちいずれか1項に記載の文書画像関連情報提供装置と、前記ユーザ端末とを備える文書画像関連情報取得システムであって、前記ユーザ端末は、
前記画像データを、前記ユーザ端末が備えるビデオメモリから取得する文書画像取得手段と、
前記文書画像取得手段により取得された画像データを前記文書画像関連情報提供装置へ送信する送信手段と、
前記関連情報を前記文書画像関連情報提供装置から受信する受信手段と、
前記受信した関連情報を用いて、前記重要キーワードに関連する情報を表示する関連情報表示手段と、を備える
ことを特徴とする文書画像関連情報取得システム
A document image related information acquisition system comprising: the document image related information providing apparatus according to any one of claims 1 to 6 ; and the user terminal, wherein the user terminal includes:
Document image acquisition means for acquiring the image data from a video memory included in the user terminal;
Transmitting means for transmitting the image data acquired by the document image acquiring means to the document image related information providing apparatus;
Receiving means for receiving the related information from the document image related information providing device;
A document image related information acquisition system comprising: related information display means for displaying information related to the important keyword using the received related information .
JP2010029521A 2010-02-12 2010-02-12 Document image related information providing apparatus and document image related information acquisition system Active JP5484113B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010029521A JP5484113B2 (en) 2010-02-12 2010-02-12 Document image related information providing apparatus and document image related information acquisition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010029521A JP5484113B2 (en) 2010-02-12 2010-02-12 Document image related information providing apparatus and document image related information acquisition system

Publications (2)

Publication Number Publication Date
JP2011165092A JP2011165092A (en) 2011-08-25
JP5484113B2 true JP5484113B2 (en) 2014-05-07

Family

ID=44595672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010029521A Active JP5484113B2 (en) 2010-02-12 2010-02-12 Document image related information providing apparatus and document image related information acquisition system

Country Status (1)

Country Link
JP (1) JP5484113B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5978645B2 (en) * 2012-02-22 2016-08-24 カシオ計算機株式会社 Information processing apparatus, data display apparatus, and program
JP6050273B2 (en) * 2014-03-18 2016-12-21 ヤフー株式会社 Search function link creation device, method, user terminal, and advertisement distribution method
WO2015163140A1 (en) * 2014-04-22 2015-10-29 シャープ株式会社 Display device and display control program
JP2017037684A (en) * 2016-11-24 2017-02-16 ヤフー株式会社 Search function link creation device, method, user terminal, and advertisement distribution method
KR102012002B1 (en) * 2017-07-20 2019-10-21 네이버 주식회사 Contents sharing method, contents sharing server

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005314A (en) * 2002-06-03 2004-01-08 Matsushita Electric Ind Co Ltd Data retrieval system, and device, method, recording medium or program for the same
JP2004030231A (en) * 2002-06-26 2004-01-29 Sony Corp Apparatus and method for information processing, recording medium, and program
JP2005165461A (en) * 2003-11-28 2005-06-23 Nifty Corp Information providing device and program
JP5223284B2 (en) * 2006-11-10 2013-06-26 株式会社リコー Information retrieval apparatus, method and program

Also Published As

Publication number Publication date
JP2011165092A (en) 2011-08-25

Similar Documents

Publication Publication Date Title
TWI629644B (en) Non-transitory computer readable storage medium, methods and systems for detecting and recognizing text from images
US7853582B2 (en) Method and system for providing information services related to multimodal inputs
US10192279B1 (en) Indexed document modification sharing with mixed media reality
US9530050B1 (en) Document annotation sharing
KR101190395B1 (en) Data access based on content of image recorded by a mobile device
CN105706080B (en) Augmenting and presenting captured data
US8005831B2 (en) System and methods for creation and use of a mixed media environment with geographic location information
US7707039B2 (en) Automatic modification of web pages
TWI544350B (en) Input method and system for searching by way of circle
CN109791559B (en) Promoting image processing apparatus as a means of use of search queries
US20090285444A1 (en) Web-Based Content Detection in Images, Extraction and Recognition
US9639633B2 (en) Providing information services related to multimodal inputs
JP2008192055A (en) Content search method and content search apparatus
US10152540B2 (en) Linking thumbnail of image to web page
EP2806336A1 (en) Text prediction in a text input associated with an image
US10482393B2 (en) Machine-based learning systems, methods, and apparatus for interactively mapping raw data objects to recognized data objects
JP5484113B2 (en) Document image related information providing apparatus and document image related information acquisition system
KR20090068380A (en) Improved mobile communication terminal
JP5103051B2 (en) Information processing system and information processing method
TWI528186B (en) System and method for posting messages by audio signals
JP4484957B1 (en) Retrieval expression generation device, retrieval expression generation method, and program
JP5913774B2 (en) Web site sharing method, electronic device, and computer program
KR102320851B1 (en) Information search method in incidental images incorporating deep learning scene text detection and recognition
JP2014186463A (en) Related information extraction device, related information extraction method, and related information extraction program
JP2019102060A (en) Information presentation system, information presentation method, program, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130124

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140218

R150 Certificate of patent or registration of utility model

Ref document number: 5484113

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150