JP5741298B2 - 辞書作成装置、辞書作成方法、およびプログラム - Google Patents
辞書作成装置、辞書作成方法、およびプログラム Download PDFInfo
- Publication number
- JP5741298B2 JP5741298B2 JP2011168896A JP2011168896A JP5741298B2 JP 5741298 B2 JP5741298 B2 JP 5741298B2 JP 2011168896 A JP2011168896 A JP 2011168896A JP 2011168896 A JP2011168896 A JP 2011168896A JP 5741298 B2 JP5741298 B2 JP 5741298B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- author
- genre
- dictionary
- unknown word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
第1の発明によって、自動的に未知語を作者別辞書に登録することができ、正確な言語解析を行うことができる。
これにより、少ない負担で、未知語を適切なジャンル別辞書に登録することができる。
これにより、言語解析用の辞書を作者別およびジャンル別に構築することができ、言語解析の精度を向上させることができる。
第2の発明によって、自動的に未知語を作者別辞書及びジャンル別辞書に登録することができ、正確な言語解析を行うことができる。
第3の発明におけるプログラムを汎用のコンピュータにインストールすることによって、第1の発明における辞書作成装置を得ることができる。
Processing Unit)、ROM(Read Only
Memory)、RAM(Random Access
Memory)等で構成される。CPUは、記憶部12、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス18を介して接続された各装置を駆動制御し、辞書作成装置1が行う後述する処理を実現する。ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS(Basic Input/Output System)等のプログラム、データ等を恒久的に保持している。RAMは、揮発性メモリであり、記憶部12、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークエリアを備える。
Disc Drive)であり、制御部11が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OSに相当する制御プログラムや、後述する処理を辞書作成装置1に実行させるためのアプリケーションプログラムが格納されている。これらの各プログラムコードは、制御部11により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。また記憶部12には、文書を光学的に読み取る読取手段(OCR:Optical Character Reader)によって読み取られた書籍の文書データ(OCRデータ)が記憶されている。
Electronics Engineers)1394やRS(Recommended Standard)−232C等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は有線、無線を問わない。バス18は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
Standard Book Number)」、その後が数字の羅列であれば、ISBNコードとして取得する。ISBNは、世界共通で図書(書籍)を特定するための番号である。また、例えば、大きい文字サイズの文字列を、作品名の一部として取得する。また、例えば、「著」、「監修」、「編」等の文字があれば、その前(又は上)の文字列を、作者(著者、監修者、編集者等)として取得する。
1.以上、本発明の実施の形態における辞書作成装置1によれば、自動的に、未知語を作者別に登録することができ、その作者別辞書を用いて正確に言語解析を行うことが可能となる。
図4に示したジャンル別辞書登録処理では、ユーザからの登録指示に応じて、ジャンル別辞書データベース23に共通の登録語(未知語)を登録するようにしたが、これに限らず、例えば、所定数以上の作者別辞書データベース22に同じジャンルで登録語が登録されている場合、辞書作成装置1が、そのジャンルを検出し、自動的に登録するようにしても良い。
また、本実施例では、作者別辞書、ジャンル別辞書を用意したが図14のように一つの辞書にまとめて記載してもよい。第1フィールドには未知語を登録し、第4フィールドには図3のS3で取得した作者名とジャンルを登録している。第3フィールドには、図9に記載されているジャンル別辞書登録画面を用いて、ユーザが第4フィールドに入力されているジャンルを参照して、入力したジャンルが登録されている。第2フィールドには第3フィールドに登録されたジャンルが複数に渡る場合に、図9に記載されているジャンル別辞書登録画面を用いて、ユーザが標準辞書として登録したときに「標準」が登録される。
11………制御部
12………記憶部
15………入力部
16………表示部
21………書誌情報データベース
22………作者別辞書データベース
23………ジャンル別辞書データベース
25………未知語判定プログラム
26………辞書登録プログラム
Claims (5)
- 本の文章が光学的に読み取られた文書データからテキストデータを取得する取得手段と、
前記本の属性に関する情報を記憶する書誌情報記憶手段と、
前記取得手段によって取得された前記テキストデータと、前記書誌情報記憶手段に記憶されている前記本の属性に関する情報とを照合し、作者情報とジャンル情報を取得する属性照合手段と、
前記取得手段によって取得された前記テキストデータに含まれる語句が、未知語か否かを判定する未知語判定手段と、
前記未知語判定手段により判定された前記未知語を、前記属性照合手段により照合された前記作者情報に対応付けられた作者別辞書記憶手段に前記ジャンル情報と共に登録する登録手段と、
前記未知語が登録されている前記作者情報及び他の作者情報に対応付られた前記作者別辞書記憶手段からジャンル情報を検索する検索手段と、
を備え、
前記登録手段は、更に、前記検索手段により検索された前記ジャンル情報に基づいて、前記ジャンル情報に対応付けられたジャンル別辞書記憶手段に前記未知語を登録する
ことを特徴とする辞書作成装置。 - 前記検索手段による検索結果の画面を表示する表示手段をさらに備え、
前記登録手段は、前記表示手段により表示された前記画面上で前記ジャンル情報の指示を受け付けた場合、前記ジャンル情報に対応付けられた前記ジャンル別辞書記憶手段に前記未知語を登録する
ことを特徴とする請求項1に記載の辞書作成装置。 - 前記ジャンル別辞書記憶手段は、ジャンル別に前記未知語を記憶する
ことを特徴とする請求項2に記載の辞書作成装置。 - 本の属性に関する情報を記憶する書誌情報記憶手段と、作者情報に対応付けられた作者別辞書記憶手段と、ジャンル情報に対応付けられたジャンル別辞書記憶手段とを備える辞書作成装置が行う辞書作成方法であって、
前記辞書作成装置の制御部が、本の文章が光学的に読み取られた文書データからテキストデータを取得する取得ステップと、
前記制御部が、前記取得ステップによって取得された前記テキストデータと、前記書誌情報記憶手段に記憶されている前記本の属性に関する情報とを照合し、作者情報とジャンル情報を取得する属性照合ステップと、
前記制御部が、前記取得ステップによって取得された前記テキストデータに含まれる語句が、未知語か否かを判定する未知語判定ステップと、
前記制御部が、前記未知語判定ステップにより判定された前記未知語を、前記属性照合ステップにより照合された前記作者情報に対応付けられた前記作者別辞書記憶手段に前記ジャンル情報と共に登録する登録ステップと、
前記未知語が登録されている前記作者情報及び他の作者情報に対応付られた前記作者別辞書記憶手段からジャンル情報を検索する検索ステップと、
を含み、
前記登録ステップは、更に、前記検索ステップにより検索された前記ジャンル情報に基づいて、前記ジャンル情報に対応付けられたジャンル別辞書記憶手段に前記未知語を登録する
ことを特徴とする辞書作成方法。 - コンピュータに、
本の文章が光学的に読み取られた文書データからテキストデータを取得する取得ステップと、
前記取得ステップによって取得された前記テキストデータと、前記本の属性に関する情報を記憶する書誌情報記憶手段に記憶されている前記本の属性に関する情報とを照合し、作者情報とジャンル情報を取得する属性照合ステップと、
前記取得ステップによって取得された前記テキストデータに含まれる語句が、未知語か否かを判定する未知語判定ステップと、
前記未知語判定ステップにより判定された前記未知語を、前記属性照合ステップにより照合された前記作者情報に対応付けられた作者別辞書記憶手段に前記ジャンル情報と共に登録する登録ステップと、
前記未知語が登録されている前記作者情報及び他の作者情報に対応付られた前記作者別辞書記憶手段からジャンル情報を検索する検索ステップと、
を実行させ、
前記登録ステップは、更に、前記検索ステップにより検索された前記ジャンル情報に基づいて、前記ジャンル情報に対応付けられたジャンル別辞書記憶手段に前記未知語を登録する
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011168896A JP5741298B2 (ja) | 2011-08-02 | 2011-08-02 | 辞書作成装置、辞書作成方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011168896A JP5741298B2 (ja) | 2011-08-02 | 2011-08-02 | 辞書作成装置、辞書作成方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013033367A JP2013033367A (ja) | 2013-02-14 |
JP5741298B2 true JP5741298B2 (ja) | 2015-07-01 |
Family
ID=47789212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011168896A Expired - Fee Related JP5741298B2 (ja) | 2011-08-02 | 2011-08-02 | 辞書作成装置、辞書作成方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5741298B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3347477B2 (ja) * | 1994-06-24 | 2002-11-20 | 沖電気工業株式会社 | 単語辞書登録装置及び文書認識装置 |
JP2002297632A (ja) * | 2001-03-30 | 2002-10-11 | Ricoh Co Ltd | 用語抽出装置および方法ならびにコンピュータプログラム |
JP2004265440A (ja) * | 2004-04-28 | 2004-09-24 | A I Soft Inc | 未知語登録装置および方法並びに記録媒体 |
JP2005339039A (ja) * | 2004-05-25 | 2005-12-08 | Fuji Xerox Co Ltd | 文書処理装置および文書処理方法 |
-
2011
- 2011-08-02 JP JP2011168896A patent/JP5741298B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013033367A (ja) | 2013-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11030199B2 (en) | Systems and methods for contextual retrieval and contextual display of records | |
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
US8275781B2 (en) | Processing documents by modification relation analysis and embedding related document information | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
US20200285808A1 (en) | Synonym dictionary creation apparatus, non-transitory computer-readable recording medium storing synonym dictionary creation program, and synonym dictionary creation method | |
US9639518B1 (en) | Identifying entities in a digital work | |
JP2004334334A (ja) | 文書検索装置、文書検索方法及び記憶媒体 | |
TW201741908A (zh) | 將一申請專利範圍中的申請專利範圍元件名詞所屬元件名詞對應標號予以對應之對應方法 | |
JP2007304796A (ja) | データベース解析システム及びデータベース解析方法及びプログラム | |
JP5687312B2 (ja) | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム | |
US20160085844A1 (en) | Tag adding apparatus and tag adding method | |
JP2021064143A (ja) | 文作成装置、文作成方法および文作成プログラム | |
JP2004334341A (ja) | 文書検索装置、文書検索方法及び記録媒体 | |
US20150186363A1 (en) | Search-Powered Language Usage Checks | |
Ben Nasr et al. | Matrixminer: a red pill to architect informal product descriptions in the matrix | |
JP5741298B2 (ja) | 辞書作成装置、辞書作成方法、およびプログラム | |
JP2002251412A (ja) | 文書検索装置および方法ならびに記憶媒体 | |
JP5550959B2 (ja) | 文書処理システム、及びプログラム | |
JP6805206B2 (ja) | 検索ワードサジェスト装置、表現情報の作成方法、および、表現情報の作成プログラム | |
JP2008210229A (ja) | 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム | |
JP2002251401A (ja) | 文書検索装置および方法ならびに記憶媒体 | |
WO2023132341A1 (ja) | 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及び記録媒体 | |
JP5233424B2 (ja) | 検索装置およびプログラム | |
JP4922030B2 (ja) | 文字列検索装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150331 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5741298 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |