JP5741298B2 - 辞書作成装置、辞書作成方法、およびプログラム - Google Patents

辞書作成装置、辞書作成方法、およびプログラム Download PDF

Info

Publication number
JP5741298B2
JP5741298B2 JP2011168896A JP2011168896A JP5741298B2 JP 5741298 B2 JP5741298 B2 JP 5741298B2 JP 2011168896 A JP2011168896 A JP 2011168896A JP 2011168896 A JP2011168896 A JP 2011168896A JP 5741298 B2 JP5741298 B2 JP 5741298B2
Authority
JP
Japan
Prior art keywords
information
author
genre
dictionary
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011168896A
Other languages
English (en)
Other versions
JP2013033367A (ja
Inventor
治男 西村
治男 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2011168896A priority Critical patent/JP5741298B2/ja
Publication of JP2013033367A publication Critical patent/JP2013033367A/ja
Application granted granted Critical
Publication of JP5741298B2 publication Critical patent/JP5741298B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、辞書作成装置、辞書作成方法、およびプログラムに関し、特に、言語解析用の辞書を作成する辞書作成装置等に関するものである。
近年、電子書籍ビジネスの拡大により、デジタルデータの無い本の文章を光学的に読み取り、読み取られた画像データから文字を認識する技術であるOCR(Optical Character Reader)のニーズが高まっている。
従来、全ての未知語を1つの辞書に登録し、標準辞書データベースを構築する技術があるが、作者別辞書やジャンル別辞書といったデータベースは存在しなかった。そのため、書籍をOCRした際、本のジャンル等によっては、文書の言語解析の精度が低くなる。
そこで、例えば、特許文献1には、人や会社部署によって扱う文章・ジャンルが固定する傾向があることから、OCRをする人の属性を事前に登録し、その属性のデータベースに、文章を言語解析した辞書を登録する技術が提案されている。
特許第4645065号
しかしながら、特許文献1の技術では、事前に人・部署の属性を登録しなくてはならず、また、その属性以外の文章を登録する際には効力を発揮しないという課題があった。
また、データベースに、メタデータ(関連書籍のリンク付け等)を追加する場合、その作業に時間と手間がかかってしまうという課題があった。
本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、ユーザに負担をかけることなく、読み取られた文書データから属性を特定し、効率的に言語解析用の辞書を作成する辞書作成装置等を提供することである。
前述した目的を達成するために、第1の発明は、本の文章が光学的に読み取られた文書データからテキストデータを取得する取得手段と、前記本の属性に関する情報を記憶する書誌情報記憶手段と、前記取得手段によって取得された前記テキストデータと、前記書誌情報記憶手段に記憶されている前記本の属性に関する情報とを照合し、作者情報とジャンル情報を取得する属性照合手段と、前記取得手段によって取得された前記テキストデータに含まれる語句が、未知語か否かを判定する未知語判定手段と、前記未知語判定手段により判定された前記未知語を、前記属性照合手段により照合された前記作者情報に対応付けられた作者辞書記憶手段に前記ジャンル情報と共に登録する登録手段と、前記未知語が登録されている前記作者情報及び他の作者情報に対応付られた前記作者別辞書記憶手段からジャンル情報を検索する検索手段と、を備え前記登録手段は、更に、前記検索手段により検索された前記ジャンル情報に基づいて、前記ジャンル情報に対応付けられたジャンル辞書記憶手段に前記未知語を登録するとを特徴とする辞書作成装置である。
第1の発明によって、自動的に未知語を作者別辞書に登録することができ、正確な言語解析を行うことができる。
前記検索手段による検索結果の画面を表示する表示手段をさらに備え、前記登録手段は、前記表示手段により表示された前記画面上で前記ジャンル情報の指示を受け付けた場合、前記ジャンル情報に対応付けられた前記ジャンル辞書記憶手段に前記未知語を登録する。
これにより、少ない負担で、未知語を適切なジャンル別辞書に登録することができる。
前記ジャンル辞書記憶手段は、ジャンル別に前記未知語を記憶する。
これにより、言語解析用の辞書を作者別およびジャンル別に構築することができ、言語解析の精度を向上させることができる。
第2の発明は、本の属性に関する情報を記憶する書誌情報記憶手段と、作者情報に対応付けられた作者別辞書記憶手段と、ジャンル情報に対応付けられたジャンル別辞書記憶手段とを備える辞書作成装置が行う辞書作成方法であって、前記辞書作成装置の制御部が、本の文章が光学的に読み取られた文書データからテキストデータを取得する取得ステップと、前記制御部が、前記取得ステップによって取得された前記テキストデータと、前記書誌情報記憶手段に記憶されている前記本の属性に関する情報とを照合し、作者情報とジャンル情報を取得する属性照合ステップと、前記制御部が、前記取得ステップによって取得された前記テキストデータに含まれる語句が、未知語か否かを判定する未知語判定ステップと、前記制御部が、前記未知語判定ステップにより判定された前記未知語を、前記属性照合ステップにより照合された前記作者情報に対応付けられた前記作者辞書記憶手段に前記ジャンル情報と共に登録する登録ステップと、前記未知語が登録されている前記作者情報及び他の作者情報に対応付られた前記作者別辞書記憶手段からジャンル情報を検索する検索ステップと、を含み、前記登録ステップは、更に、前記検索ステップにより検索された前記ジャンル情報に基づいて、前記ジャンル情報に対応付けられたジャンル別辞書記憶手段に前記未知語を登録することを特徴とする辞書作成方法である。
第2の発明によって、自動的に未知語を作者別辞書及びジャンル別辞書に登録することができ、正確な言語解析を行うことができる。
第3の発明は、コンピュータに、本の文章が光学的に読み取られた文書データからテキストデータを取得する取得ステップと、前記取得ステップによって取得された前記テキストデータと、前記本の属性に関する情報を記憶する書誌情報記憶手段に記憶されている前記本の属性に関する情報とを照合し、作者情報とジャンル情報を取得する属性照合ステップと、前記取得ステップによって取得された前記テキストデータに含まれる語句が、未知語か否かを判定する未知語判定ステップと、前記未知語判定ステップにより判定された前記未知語を、前記属性照合ステップにより照合された前記作者情報に対応付けられた作者辞書記憶手段に前記ジャンル情報と共に登録する登録ステップと、前記未知語が登録されている前記作者情報及び他の作者情報に対応付られた前記作者別辞書記憶手段からジャンル情報を検索する検索ステップと、を実行させ、前記登録ステップは、更に、前記検索ステップにより検索された前記ジャンル情報に基づいて、前記ジャンル情報に対応付けられたジャンル別辞書記憶手段に前記未知語を登録することを特徴とするプログラムである。
第3の発明におけるプログラムを汎用のコンピュータにインストールすることによって、第1の発明における辞書作成装置を得ることができる。
本発明により、ユーザに負担をかけることなく、読み取られた文書データから属性を特定し、効率的に言語解析用の辞書を作成する辞書作成装置、辞書作成方法、およびプログラムを提供することができる。
本発明の実施の形態に係る辞書作成装置のハードウェアの構成例を示すブロック図である。 辞書作成装置1の機能構成例を示すブロック図である。 未知語判定処理を説明するフローチャートである。 未知語登録処理を説明するフローチャートである。 データベースに格納される情報の一例を示す図である。 データベースに格納される情報の他の例を示す図である。 ジャンル別辞書登録画面の表示例を示す図である。 データベースに格納される情報の他の例を示す図である。 ジャンル別辞書登録画面の他の表示例を示す図である。 データベースに格納される情報の他の例を示す図である。 データベースにメタデータが追加された一例を示す図である。 リンク登録画面の表示例を示す図である。 データベースにタグが登録された一例を示す図である。 未知語を登録するデータベースの例を示す図である。
以下、図面に基づいて、本発明の実施形態を詳細に説明する。
[本発明の実施の形態]
図1は、辞書作成装置1のハードウェアの構成例を示すブロック図である。なお、図1のハードウェア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
辞書作成装置1を実現するコンピュータは、制御部11、記憶部12、メディア入出力部13、通信制御部14、入力部15、表示部16、周辺機器I/F(インターフェイス)部17等が、バス18を介して接続される。
制御部11は、CPU(Central
Processing Unit)、ROM(Read Only
Memory)、RAM(Random Access
Memory)等で構成される。CPUは、記憶部12、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス18を介して接続された各装置を駆動制御し、辞書作成装置1が行う後述する処理を実現する。ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS(Basic Input/Output System)等のプログラム、データ等を恒久的に保持している。RAMは、揮発性メモリであり、記憶部12、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークエリアを備える。
記憶部12は、HDD(Hard
Disc Drive)であり、制御部11が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OSに相当する制御プログラムや、後述する処理を辞書作成装置1に実行させるためのアプリケーションプログラムが格納されている。これらの各プログラムコードは、制御部11により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。また記憶部12には、文書を光学的に読み取る読取手段(OCR:Optical Character Reader)によって読み取られた書籍の文書データ(OCRデータ)が記憶されている。
メディア入出力部13(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)等のメディア入出力装置を有する。通信制御部14は、通信制御装置、通信ポート等を有し、辞書作成装置1とネットワーク間の通信を媒介する通信インターフェイスであり、LAN(Local Area Network)やインターネットなどのネットワークを介して、他のコンピュータ間との通信制御を行う。
入力部15は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。入力部15を介して、辞書作成装置1に対して、操作指示、動作指示、データ入力等を行うことができる。
表示部16は、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携して辞書作成装置1のビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
周辺機器I/F部17は、辞書作成装置1に周辺機器を接続させるためのポートであり、周辺機器I/F部17を介して辞書作成装置1は周辺機器とのデータの送受信を行う。周辺機器I/F部17は、USB(Universal Serial Bus)やIEEE(The Institute of Electrical and
Electronics Engineers)1394やRS(Recommended Standard)−232C等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は有線、無線を問わない。バス18は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
以上のような構成を有する辞書作成装置1は、後述する図3、図4のフローチャートに示す処理によって、自動的に未知語を作者別やジャンル別に登録し、言語解析用の辞書を正確かつ詳細に作成する。
図2は、辞書作成装置1の機能構成例を示すブロック図である。図2に示す機能部のうちの少なくとも一部は、辞書作成装置1の制御部11により辞書作成プログラムが実行されることによって実現される。
図2に示すように、辞書作成装置1は、書誌情報データベース(DB)21、作者別辞書データベース22、ジャンル別辞書データベース23、標準辞書データベース24、未知語判定プログラム25、辞書登録プログラム26、および言語解析プログラム27の機能を少なくとも有する。
書誌情報データベース21は、例えば、MARC(MAchine Readable Cataloging:機械可読目録)データベースであって、タイトル、著者名、編集者、監修、出版社、出版年月、本のページ数・サイズ、価格、分類コード(ジャンル)、シリーズ情報(シリーズものの1冊か否か)、利用対象、受賞履歴、文章による内容紹介、内容目次等の書誌データが登録されている。
作者別辞書データベース22には、作者A用辞書データベース22A、作者B用辞書データベース22B、・・・が格納されている。つまり、作者別辞書データベース22は、作者別(作者A、作者B、・・・)に辞書データベースが構築されている。
ジャンル別辞書データベース23には、歴史用辞書データベース23A、文芸用辞書データベース23B、・・・が格納されている。つまり、ジャンル別辞書データベース23は、ジャンル別(歴史、文芸、・・・)に辞書データベースが構築されている。
標準辞書データベース24は、ジャンル別辞書登録プログラム26Bによって、ジャンル別及び作者別に辞書データベースが構築されており、各データベースの中で最も上位階層とされる。
未知語判定プログラム25は、記憶部12から書籍のOCRデータを入力し、書誌情報データベース21と照合して作者及びジャンルを特定するとともに、処理対象の語句が、未知語(辞書データベースに未登録の語句)か否かを判定する。未知語判定プログラム25は、例えば、標準辞書データベース24、ジャンル別辞書データベース23、作者別辞書データベース22の順に、処理対象の語句が登録されているか否かを判定する。未知語の語句については、辞書登録プログラム26に処理を引き渡す。未知語ではない語句については、言語解析プログラム27に処理を引き渡す。
辞書登録プログラム26は、作者別辞書登録プログラム26A、ジャンル別辞書登録プログラム26Bを含み、作者別辞書データベース22、ジャンル別辞書データベース23、および標準辞書データベース24に未知語を登録する。
作者別辞書登録プログラム26Aは、未知語を、特定された作者及びジャンルに関連付け、対応する作者別辞書データベース22に登録する。
ジャンル別辞書登録プログラム26Bは、作者別辞書データベース22に登録されている情報に基づく画面を表示部16に表示させ、ユーザから新たなデータベースへの登録指示を受け付けると、受け付けた登録語を、上位階層のジャンル別辞書データベース23や標準辞書データベース24に登録する。
言語解析プログラム27は、歴史用アルゴリズム27A、文芸用アルゴリズム27B、・・・を含み、作者別辞書データベース22、ジャンル別辞書データベース23、および標準辞書データベース24を参照し、高精度に言語解析を行う。
次に、図3のフローチャートを参照して、辞書作成装置1の未知語判定プログラム25が実行する、未知語判定処理について説明する。なお、この処理は、本1冊分の処理を示し、全ての書籍について処理が行われるまで繰り返し実行される。
ステップS1において、辞書作成装置1の未知語判定プログラム25は、記憶部12に記憶されている書籍のOCRデータを入力する。
ステップS2において、辞書作成装置1の未知語判定プログラム25は、ステップS1の処理で入力した表紙および背表紙のOCRデータから、テキストデータを取得する。
例えば、先頭に「ISBN(International
Standard Book Number)」、その後が数字の羅列であれば、ISBNコードとして取得する。ISBNは、世界共通で図書(書籍)を特定するための番号である。また、例えば、大きい文字サイズの文字列を、作品名の一部として取得する。また、例えば、「著」、「監修」、「編」等の文字があれば、その前(又は上)の文字列を、作者(著者、監修者、編集者等)として取得する。
ステップS3において、辞書作成装置1の未知語判定プログラム25は、ステップS2の処理で取得したテキストデータと、書誌情報データベース21を照合し、本のジャンルおよび作者を特定する。
なお、ステップS2の処理でISBNコードが正確に認識できた場合には、ステップS3において、本を一意に特定することができる。つまり、S2の処理で作品名や著者名を取得するのは、ISBNコードの一部が認識できなかった場合に検索語として用いたり、本のジャンルや作者が特定された結果を検証したりする為である。
ステップS4において、辞書作成装置1の未知語判定プログラム25は、処理対象の語句を特定する。
ここで、処理対象の語句として、文章をどこで区切るか、という問題がある。例えば、「本能寺の変」は、通常の形態素解析では「本能寺/の/変」と3つに区分される。そこで、「本能寺」と「本能寺の変」の両方を、処理対象の語句としても良い。つまり、「名詞」だけでなく、「名詞」+「助詞」+「名詞」なども、処理対象の語句としても良い。
ステップS5において、辞書作成装置1の未知語判定プログラム25は、ステップS4の処理で特定した処理対象の語句が、標準辞書データベース24、ジャンル別辞書データベース23、作者別辞書データベース22に登録されているか否かを判定し、登録されていないと判定した場合、未知語の登録処理を実行する辞書登録プログラム26に処理を引き渡す(ステップS6)。ステップS6については、図4を参照しながら後述する。
ステップS5において、辞書作成装置1の未知語判定プログラム25は、ステップS4の処理で特定した処理対象の語句が、標準辞書データベース24、ジャンル別辞書データベース23、作者別辞書データベース22に登録されていると判定した場合、ステップS6の処理をスキップし、ステップS7に進む。
ステップS7において、辞書作成装置1の未知語判定プログラム25は、当該書籍のOCRデータの最後か否かを判定し、まだ処理していないOCRデータがあると判定した場合には、ステップS4に戻り、上述した処理を繰り返し実行する。そして、ステップS7において、辞書作成装置1の未知語判定プログラム25は、当該書籍のOCRデータの最後であると判定した場合、処理を終了する。
次に、図4のフローチャートを参照して、辞書作成装置1の辞書登録プログラム26が実行する、未知語登録処理について説明する。なお、この処理は、未知語1語句分の処理を示し、全ての未知語について辞書データベースへの登録処理が行われるまで繰り返し実行される。
ステップS11において、辞書作成装置1の作者別辞書登録プログラム26Aは、特定された作者の作者別辞書データベース22に未知語を登録する。
ステップS12において、辞書作成装置1のジャンル別辞書登録プログラム26Bは、処理対象の未知語が登録されている他の作者別辞書データベース22を検索し、検索結果を、ジャンル別辞書登録画面として表示部16に表示させる。
ステップS13において、辞書作成装置1のジャンル別辞書登録プログラム26Bは、ユーザによりジャンル別辞書登録画面31上で登録するデータベースが選択されたか否かを判定し、登録するデータベースが選択されるまで待機する。なお、後述する図7に示すキャンセルボタン31fが押下された場合には、処理を終了する。
ステップS13において、辞書作成装置1のジャンル別辞書登録プログラム26Bは、ユーザによりジャンル別辞書登録画面31上で登録するデータベースが選択されたと判定した場合、ステップS14に進み、未知語を、選択されたデータベースに登録する。
次に、具体的な例を挙げて、図3、図4に示す処理について説明する。
例えば、本αのOCRデータから、ジャンルとして「歴史」が特定され、作者として「作者A」が特定される(図3のステップS3参照)。また処理対象の語句として「本能寺の変」が特定される(図3のステップS4参照)。そして、処理対象の語句が、特定された「作者A」の作者A用辞書データベース22Aに登録されていない場合には(図3のステップS5参照)、処理対象の語句が、未知語であるとして、作者A用辞書データベース22Aに登録される。これにより、図5に示すように、「本能寺の変」が第3階層データベースである作者A用辞書データベース22Aに登録される。
このように、本αをOCRしたことにより、「歴史」と「作者A」が特定され、未知語として検出された「本能寺の変」が作者A用辞書データベース22Aに登録される。従って、以後、作者Aの別の本をOCRしても、「本能寺の変」は認識され、正確な言語解析を行うことができる。
次に、例えば、本βのOCRデータから、ジャンルとして「歴史」が特定され、作者として「作者B」が特定される(図3のステップS3参照)。また処理対象の語句として「本能寺の変」が特定される(図3のステップS4参照)。そして、処理対象の語句が、特定された「作者B」の作者B用辞書データベース22Bに登録されていない場合には(図3のステップS5参照)、処理対象の語句が、未知語であるとして、作者B用辞書データベース22Bに登録される。これにより、図6に示すように、「本能寺の変」が第3階層データベースである作者B用辞書データベース22Bに登録される。
このように、本βをOCRしたことにより、「歴史」と「作者B」が特定され、未知語として検出された「本能寺の変」が作者B用辞書データベース22Bに登録される。従って、以後、作者Bの別の本をOCRしても、「本能寺の変」は認識され、正確な言語解析を行うことができる。
以上、本α、本βをOCRしたことにより、作者A用辞書データベース22A、作者B用辞書データベース22Bに、それぞれ「本能寺の変」という語句が登録される。従って、後述するようにして、ユーザがデータベースを整理する際、格段の専門知識が無くても、「本能寺の変」という単語を上位階層のジャンル別辞書データベース23(例えば、歴史用辞書データベース23A)に登録するか否かの判断を容易に行うことが可能となる。
図7は、ジャンル別辞書登録画面31の表示例を示す図である。
図7に示すように、ジャンル別辞書登録画面31には、登録語、2つの登録済の作者別辞書(1)、(2)が表示されているとともに、新たに登録する辞書を選択するための選択ボックス31a、31b、31c、31dが表示されている。また、選択内容を決定する場合に選択される決定ボタン31e、操作を中止する場合に操作されるキャンセルボタン31fも表示されている。
図7の例の場合、登録語として「本能寺の変」が表示されており、「本能寺の変」が既に登録されている作者別辞書(1)(作者A用辞書データベース22A)の属性として「作者:A」、「ジャンル:歴史」が表示され、作者別辞書(2)(作者B用辞書データベース22B)の属性として「作者:B」、「ジャンル:歴史」が表示されている。
図7に示すジャンル別辞書登録画面31を確認したユーザは、「本能寺の変」という登録語には、「歴史」のジャンルが共通していることを認識することができる。従って、入力部15を用いて、選択ボックス31aの中から「歴史」を選択し、決定ボタン31eを押下することにより、ジャンル別辞書(1)(歴史用辞書データベース23A)に「本能寺の変」を新たに登録することができる。このとき、ジャンル別辞書登録プログラム26Bは、既に登録されている作者別辞書データベース22に「歴史」のジャンルを関連付ける。これにより、図8に示すように、「本能寺の変」が第2階層データベースである歴史用辞書データベース23Aに登録され、第3階層データベースである作者A用辞書データベース22A、作者B用辞書データベース22Bに、上位階層データベースのジャンルである「歴史」が関連付けられる。
また、例えば、辞書作成装置1のジャンル別辞書登録プログラム26Bは、ステップS12の処理の他の検索結果として、図9に示すようなジャンル別辞書登録画面31を表示部16に表示させる。
図9の例の場合、登録語として「本能寺の変」が表示されており、「本能寺の変」が既に登録されている作者別辞書(1)(作者A用辞書データベース22A)の属性として「作者:A」、「ジャンル:歴史」が表示され、作者別辞書(2)(作者B用辞書データベース22B)の属性として「作者:B」、「ジャンル:歴史」が表示され、作者別辞書(3)(図2では図示せず)の属性として「作者:X」、「ジャンル:文芸」が表示されている。
図9に示すジャンル別辞書登録画面31を確認したユーザは、「本能寺の変」という登録語には、「歴史」、「文芸」のジャンルが共通していることを認識することができる。従って、入力部15を用いて、選択ボックス31aの中から「歴史」を選択し、選択ボックス31bの中から「文芸」を選択し、決定ボタン31eを押下することにより、ジャンル別辞書(1)(歴史用辞書データベース23A)およびジャンル別辞書(2)(文芸用辞書データベース23B)に「本能寺の変」を新たに登録することができる。また、ユーザは、「本能寺の変」を最も上位階層の標準辞書にも登録する場合には、選択ボックス31dにチェックを入れることにより、標準辞書データベース24に「本能寺の変」を新たに登録することができる。
これにより、図10に示すように、「本能寺の変」が第1階層データベースである標準辞書データベース24に登録されるとともに、第2階層データベースである歴史用辞書データベース23A、文芸用辞書データベース23Bにも登録される。そして、第2階層データベースである歴史用辞書データベース23A、文芸用辞書データベース23Bに、上位階層データベースのジャンルである「標準」が関連付けられ、第3階層データベースである作者A用辞書データベース22A、作者B用辞書データベース22Bに、上位階層データベースのジャンルである「標準/歴史」、「標準/文芸」がそれぞれ関連付けられる。
[発明の実施の形態における効果]
1.以上、本発明の実施の形態における辞書作成装置1によれば、自動的に、未知語を作者別に登録することができ、その作者別辞書を用いて正確に言語解析を行うことが可能となる。
2.また作者別辞書を表示させることで、ユーザが、作者別辞書にそれぞれ登録されている未知語に共通するジャンルを容易に認識することができるため、簡単な操作で、未知語を新たにジャンル別に登録することができる。つまり、少ない負担で言語解析用のジャンル別辞書を正確かつ詳細に構築することができ、言語解析プログラム27がジャンルに適した正確な言語解析を行うことが可能となる。ひいては、書籍のデジタル化を迅速かつ正確に行うことが可能となる。
3.また、言語解析用の辞書を正確かつ詳細に構築することにより、ユーザが新たな情報(メタデータ)を登録することができる。
図11は、第3階層データベースである作者別辞書データベース22に、メタデータが追加された一例を示す図である。
図11の例では、「本能寺の変」という未知語が、作者A用辞書データベース22A、作者B用辞書データベース22B、作者C用辞書データベース23C(図2では図示せず)にそれぞれ登録されている。また、作者A用辞書データベース22Aに「本α」の作品名、作者B用辞書データベース22Bに「本β」の作品名、作者C用辞書データベース23Cに「本γ」の作品名がそれぞれ登録されている。なお、「作品」の属性は、図3のステップS3の処理で本のジャンルや作者とともに作品名も特定させておくことにより、図3のステップS6の処理(図4の処理)で、未知語と一緒に作者別辞書データベース22に登録される。
ここで、作者によって、「本能寺の変」の首謀者が「豊臣秀吉」考える人と、「明智光秀」と考える人がいるが、作者Aは「豊臣秀吉首謀説」、作者B、作者Cは「明智光秀首謀説」を唱えているとすると、ユーザは、それらの主張をメタデータとして登録(追加)することができる。メタデータの登録方法は、図7や図9に示したジャンル別辞書登録画面31上にメタデータ入力欄を設け、ジャンル別辞書登録の際にメタデータの入力を行わせるようにしてもよいし、ジャンル別辞書データベース23が作成された後でメタデータ登録画面を新たに表示させ、メタデータの入力を行わせるようにしても良く、その方法は特に問わない。
以上のようにして、新たなメタデータの登録を行うことにより、言語解析用の辞書をさらに詳細に構築することが可能となる。
4.また、メタデータを登録することにより、本の関連付け(リンク)を行い、より詳細に書籍の分類・整理・認識を行うことが可能となる。
例えば、辞書作成装置1の制御部11は、ユーザが入力部15を用いて本のリンク登録を指示すると、図12に示すようなリンク登録画面33を表示部16に表示させる。
図12に示すように、リンク登録画面33には、リンク元の書籍名(「本γ(明智光秀首謀説を主張)」)、リンク箇所となる登録語(「本能寺の変」)、2つのリンクさせる本の候補(「本α(豊臣秀吉首謀説を主張)」、「本β(明智光秀首謀説を主張)」)が表示されているとともに、リンクさせる本を選択するための選択ボックス33aが表示されている。また、リンクさせる本の内容を決定する場合に操作される決定ボタン33b、操作を中止する場合に操作されるキャンセルボタン33cも表示されている。
図12に示すリンク登録画面33を確認したユーザは、「本γ」の「本能寺の変」というリンク箇所にリンクさせる本として、選択ボックス33aの中から、同様の主張を唱える「本α」を選択し、決定ボタン33bを押下することにより、図13に示すように、第3階層データベースである作者別辞書データベース22の作者C用辞書データベース22C(図2では図示せず)に「link:本α」というタグを登録することができる。
これにより、作者Cの本をOCRまたは過去の作者Cの本のOCRデータを再度言語解析した場合、「本能寺の変」という語句に「link」というタグを付けることが可能となる。従って、ユーザが、本γの電子書籍を読んでいた際に「本能寺の変」の文字をクリックした場合、同様の主張を唱える本αにリンクされ、本αの内容を容易に参照することができる。
[変形例]
図4に示したジャンル別辞書登録処理では、ユーザからの登録指示に応じて、ジャンル別辞書データベース23に共通の登録語(未知語)を登録するようにしたが、これに限らず、例えば、所定数以上の作者別辞書データベース22に同じジャンルで登録語が登録されている場合、辞書作成装置1が、そのジャンルを検出し、自動的に登録するようにしても良い。
また、本実施例では、作者別辞書、ジャンル別辞書を用意したが図14のように一つの辞書にまとめて記載してもよい。第1フィールドには未知語を登録し、第4フィールドには図3のS3で取得した作者名とジャンルを登録している。第3フィールドには、図9に記載されているジャンル別辞書登録画面を用いて、ユーザが第4フィールドに入力されているジャンルを参照して、入力したジャンルが登録されている。第2フィールドには第3フィールドに登録されたジャンルが複数に渡る場合に、図9に記載されているジャンル別辞書登録画面を用いて、ユーザが標準辞書として登録したときに「標準」が登録される。
以上、添付図面を参照しながら、本発明に係る辞書作成装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
1………辞書作成装置
11………制御部
12………記憶部
15………入力部
16………表示部
21………書誌情報データベース
22………作者別辞書データベース
23………ジャンル別辞書データベース
25………未知語判定プログラム
26………辞書登録プログラム

Claims (5)

  1. 本の文章が光学的に読み取られた文書データからテキストデータを取得する取得手段と、
    前記本の属性に関する情報を記憶する書誌情報記憶手段と、
    前記取得手段によって取得された前記テキストデータと、前記書誌情報記憶手段に記憶されている前記本の属性に関する情報とを照合し、作者情報とジャンル情報を取得する属性照合手段と、
    前記取得手段によって取得された前記テキストデータに含まれる語句が、未知語か否かを判定する未知語判定手段と、
    前記未知語判定手段により判定された前記未知語を、前記属性照合手段により照合された前記作者情報に対応付けられた作者辞書記憶手段に前記ジャンル情報と共に登録する登録手段と、
    前記未知語が登録されている前記作者情報及び他の作者情報に対応付られた前記作者別辞書記憶手段からジャンル情報を検索する検索手段と、
    を備え
    前記登録手段は、更に、前記検索手段により検索された前記ジャンル情報に基づいて、前記ジャンル情報に対応付けられたジャンル辞書記憶手段に前記未知語を登録する
    とを特徴とする辞書作成装置。
  2. 前記検索手段による検索結果の画面を表示する表示手段をさらに備え、
    前記登録手段は、前記表示手段により表示された前記画面上で前記ジャンル情報の指示を受け付けた場合、前記ジャンル情報に対応付けられた前記ジャンル辞書記憶手段に前記未知語を登録する
    ことを特徴とする請求項1に記載の辞書作成装置。
  3. 前記ジャンル辞書記憶手段は、ジャンル別に前記未知語を記憶する
    ことを特徴とする請求項2に記載の辞書作成装置。
  4. 本の属性に関する情報を記憶する書誌情報記憶手段と、作者情報に対応付けられた作者別辞書記憶手段と、ジャンル情報に対応付けられたジャンル別辞書記憶手段とを備える辞書作成装置が行う辞書作成方法であって、
    前記辞書作成装置の制御部が、本の文章が光学的に読み取られた文書データからテキストデータを取得する取得ステップと、
    前記制御部が、前記取得ステップによって取得された前記テキストデータと、前記書誌情報記憶手段に記憶されている前記本の属性に関する情報とを照合し、作者情報とジャンル情報を取得する属性照合ステップと、
    前記制御部が、前記取得ステップによって取得された前記テキストデータに含まれる語句が、未知語か否かを判定する未知語判定ステップと、
    前記制御部が、前記未知語判定ステップにより判定された前記未知語を、前記属性照合ステップにより照合された前記作者情報に対応付けられた前記作者辞書記憶手段に前記ジャンル情報と共に登録する登録ステップと、
    前記未知語が登録されている前記作者情報及び他の作者情報に対応付られた前記作者別辞書記憶手段からジャンル情報を検索する検索ステップと、
    を含み、
    前記登録ステップは、更に、前記検索ステップにより検索された前記ジャンル情報に基づいて、前記ジャンル情報に対応付けられたジャンル別辞書記憶手段に前記未知語を登録する
    とを特徴とする辞書作成方法。
  5. コンピュータに、
    本の文章が光学的に読み取られた文書データからテキストデータを取得する取得ステップと、
    前記取得ステップによって取得された前記テキストデータと、前記本の属性に関する情報を記憶する書誌情報記憶手段に記憶されている前記本の属性に関する情報とを照合し、作者情報とジャンル情報を取得する属性照合ステップと、
    前記取得ステップによって取得された前記テキストデータに含まれる語句が、未知語か否かを判定する未知語判定ステップと、
    前記未知語判定ステップにより判定された前記未知語を、前記属性照合ステップにより照合された前記作者情報に対応付けられた作者辞書記憶手段に前記ジャンル情報と共に登録する登録ステップと、
    前記未知語が登録されている前記作者情報及び他の作者情報に対応付られた前記作者別辞書記憶手段からジャンル情報を検索する検索ステップと、
    を実行させ
    前記登録ステップは、更に、前記検索ステップにより検索された前記ジャンル情報に基づいて、前記ジャンル情報に対応付けられたジャンル別辞書記憶手段に前記未知語を登録する
    ことを特徴とするプログラム。
JP2011168896A 2011-08-02 2011-08-02 辞書作成装置、辞書作成方法、およびプログラム Expired - Fee Related JP5741298B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011168896A JP5741298B2 (ja) 2011-08-02 2011-08-02 辞書作成装置、辞書作成方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011168896A JP5741298B2 (ja) 2011-08-02 2011-08-02 辞書作成装置、辞書作成方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2013033367A JP2013033367A (ja) 2013-02-14
JP5741298B2 true JP5741298B2 (ja) 2015-07-01

Family

ID=47789212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011168896A Expired - Fee Related JP5741298B2 (ja) 2011-08-02 2011-08-02 辞書作成装置、辞書作成方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5741298B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3347477B2 (ja) * 1994-06-24 2002-11-20 沖電気工業株式会社 単語辞書登録装置及び文書認識装置
JP2002297632A (ja) * 2001-03-30 2002-10-11 Ricoh Co Ltd 用語抽出装置および方法ならびにコンピュータプログラム
JP2004265440A (ja) * 2004-04-28 2004-09-24 A I Soft Inc 未知語登録装置および方法並びに記録媒体
JP2005339039A (ja) * 2004-05-25 2005-12-08 Fuji Xerox Co Ltd 文書処理装置および文書処理方法

Also Published As

Publication number Publication date
JP2013033367A (ja) 2013-02-14

Similar Documents

Publication Publication Date Title
US11030199B2 (en) Systems and methods for contextual retrieval and contextual display of records
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
US8275781B2 (en) Processing documents by modification relation analysis and embedding related document information
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20200285808A1 (en) Synonym dictionary creation apparatus, non-transitory computer-readable recording medium storing synonym dictionary creation program, and synonym dictionary creation method
US9639518B1 (en) Identifying entities in a digital work
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
TW201741908A (zh) 將一申請專利範圍中的申請專利範圍元件名詞所屬元件名詞對應標號予以對應之對應方法
JP2007304796A (ja) データベース解析システム及びデータベース解析方法及びプログラム
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
US20160085844A1 (en) Tag adding apparatus and tag adding method
JP2021064143A (ja) 文作成装置、文作成方法および文作成プログラム
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
US20150186363A1 (en) Search-Powered Language Usage Checks
Ben Nasr et al. Matrixminer: a red pill to architect informal product descriptions in the matrix
JP5741298B2 (ja) 辞書作成装置、辞書作成方法、およびプログラム
JP2002251412A (ja) 文書検索装置および方法ならびに記憶媒体
JP5550959B2 (ja) 文書処理システム、及びプログラム
JP6805206B2 (ja) 検索ワードサジェスト装置、表現情報の作成方法、および、表現情報の作成プログラム
JP2008210229A (ja) 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
WO2023132341A1 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及び記録媒体
JP5233424B2 (ja) 検索装置およびプログラム
JP4922030B2 (ja) 文字列検索装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150413

R150 Certificate of patent or registration of utility model

Ref document number: 5741298

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees