JP4170325B2 - 辞書の妥当性を評価する装置、方法およびプログラム - Google Patents
辞書の妥当性を評価する装置、方法およびプログラム Download PDFInfo
- Publication number
- JP4170325B2 JP4170325B2 JP2005228143A JP2005228143A JP4170325B2 JP 4170325 B2 JP4170325 B2 JP 4170325B2 JP 2005228143 A JP2005228143 A JP 2005228143A JP 2005228143 A JP2005228143 A JP 2005228143A JP 4170325 B2 JP4170325 B2 JP 4170325B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- word
- notation
- dependency
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
・遺伝子:LocusLink(非特許文献2を参照。)
・たんぱく質:SwissProt(非特許文献3を参照。)
以上、本変形例によれば、予め基準語句を定めることなく表記語の妥当性を適切に評価することができる。
20 評価ユニット
22 第1部分
25 第2部分
28 第3部分
30 リソース
100 辞書記録部
110 関係記録部
120 評価部
130 入力部
140 警告部
150 頻度記録部
160 頻度算出部
170 分布記録部
180 テキスト記録部
190 分布生成部
500 情報処理装置
Claims (8)
- テキストに表記された表記語を変換する辞書の妥当性を評価する、情報処理装置により実現された装置であって、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している、前記情報処理装置により実現された辞書記録部と、
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している、前記情報処理装置により実現された関係記録部と、
妥当性評価の対象とすべき第1のカテゴリーの表記語と、当該表記語に対応する代表語との組を前記辞書記録部から入力し、入力した前記表記語および前記代表語の対応付けの妥当性の評価結果を出力する、前記情報処理装置により実現された評価部とを備え、
前記関係記録部は、各々のカテゴリーが他の各々のカテゴリーに依存する依存関係の程度を示す依存度を記録しており、
前記評価部は、入力した前記表記語が、前記辞書記録部における前記第1のカテゴリーとは異なる第2のカテゴリーにおける代表語と一致することを条件に、前記第1のカテゴリーおよび前記第2のカテゴリーに対応する依存度を前記関係記録部から検索し、検索された前記依存度が基準未満であれば入力した前記表記語および前記代表語の対応付けが妥当でないとの評価結果を出力する
装置。 - 新規カテゴリーの指定を、前記新規カテゴリーが他のカテゴリーに依存する依存関係、または、他のカテゴリーが前記新規カテゴリーに依存する依存関係に対応付けて利用者から入力する、前記情報処理装置により実現された入力部と、
入力された依存関係および前記関係記録部に記録された依存関係に基づいて、一のカテゴリーが前記新規カテゴリーに依存し、かつ、前記新規カテゴリーが他のカテゴリーに依存し、かつ、当該他のカテゴリーが当該一のカテゴリーに依存することを条件に、依存関係が不適切である旨を利用者に警告する、前記情報処理装置により実現された警告部と
を更に備える請求項1に記載の装置。 - テキストに表記された表記語を変換する辞書の妥当性を評価する、情報処理装置により実現された装置であって、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している、前記情報処理装置により実現された辞書記録部と、
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している、前記情報処理装置により実現された関係記録部と、
妥当性評価の対象とすべき第1のカテゴリーの表記語と、当該表記語に対応する代表語との組を前記辞書記録部から入力し、入力した前記表記語が、前記辞書記録部における前記第1のカテゴリーとは異なる第2のカテゴリーにおける代表語と一致し、かつ、前記第2のカテゴリーが前記第1のカテゴリーに依存する依存関係が前記関係記録部に記録されていないことを条件に、入力した前記表記語および前記代表語の対応付けが妥当でないとの評価結果を出力する、前記情報処理装置により実現された評価部と、
新規カテゴリーの指定を、前記新規カテゴリーが他のカテゴリーに依存する依存関係、または、他のカテゴリーが前記新規カテゴリーに依存する依存関係に対応付けて利用者から入力する、前記情報処理装置により実現された入力部と、
入力された依存関係および前記関係記録部に記録された依存関係に基づいて、一のカテゴリーが前記新規カテゴリーに依存し、かつ、前記新規カテゴリーが他のカテゴリーに依存し、かつ、当該他のカテゴリーが当該一のカテゴリーに依存することを条件に、依存関係が不適切である旨を利用者に警告する、前記情報処理装置により実現された警告部と
を備える装置。 - 情報処理装置によって、テキストに表記された表記語を変換する辞書の妥当性を評価する方法であって、
前記情報処理装置は、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している、前記情報処理装置により実現された辞書記録部と、
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している、前記情報処理装置により実現された関係記録部とを有し、
前記情報処理装置により実現された評価部が、妥当性評価の対象とすべき第1のカテゴリーの表記語と、当該表記語に対応する代表語との組を前記辞書記録部から入力し、入力した前記表記語および前記代表語の対応付けの妥当性の評価結果を出力する評価段階を備え、
前記関係記録部は、各々のカテゴリーが他の各々のカテゴリーに依存する依存関係の程度を示す依存度を記録しており、
前記評価段階において、前記情報処理装置により実現された評価部が、入力した前記表記語が、前記辞書記録部における前記第1のカテゴリーとは異なる第2のカテゴリーにおける代表語と一致することを条件に、前記第1のカテゴリーおよび前記第2のカテゴリーに対応する依存度を前記関係記録部から検索し、検索された前記依存度が基準未満であれば入力した前記表記語および前記代表語の対応付けが妥当でないとの評価結果を出力する
方法。 - テキストに表記された表記語を変換する辞書の妥当性を評価する装置として、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している、当該情報処理装置により実現された辞書記録部と、
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している、当該情報処理装置により実現された関係記録部と、
妥当性評価の対象とすべき第1のカテゴリーの表記語と、当該表記語に対応する代表語との組を前記辞書記録部から入力し、入力した前記表記語および前記代表語の対応付けの妥当性の評価結果を出力する、当該情報処理装置により実現された評価部とを備え、
前記関係記録部は、各々のカテゴリーが他の各々のカテゴリーに依存する依存関係の程度を示す依存度を記録しており、
前記評価部は、入力した前記表記語が、前記辞書記録部における前記第1のカテゴリーとは異なる第2のカテゴリーにおける代表語と一致することを条件に、前記第1のカテゴリーおよび前記第2のカテゴリーに対応する依存度を前記関係記録部から検索し、検索された前記依存度が基準未満であれば入力した前記表記語および前記代表語の対応付けが妥当でないとの評価結果を出力する
装置として機能させるプログラム。 - 情報処理装置によって、テキストに表記された表記語を変換する辞書の妥当性を評価する方法であって、
前記情報処理装置は、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している、当該情報処理装置により実現された辞書記録部と、
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している、当該情報処理装置により実現された関係記録部と
を有し、
前記情報処理装置により実現された評価部が、妥当性評価の対象とすべき第1のカテゴリーの表記語と、当該表記語に対応する代表語との組を前記辞書記録部から入力し、入力した前記表記語が、前記辞書記録部における前記第1のカテゴリーとは異なる第2のカテゴリーにおける代表語と一致し、かつ、前記第2のカテゴリーが前記第1のカテゴリーに依存する依存関係が前記関係記録部に記録されていないことを条件に、入力した前記表記語および前記代表語の対応付けが妥当でないとの評価結果を出力する評価段階と、
前記情報処理装置により実現された入力部が、新規カテゴリーの指定を、前記新規カテゴリーが他のカテゴリーに依存する依存関係、または、他のカテゴリーが前記新規カテゴリーに依存する依存関係に対応付けて利用者から入力する入力段階と、
前記情報処理装置により実現された警告部が、入力された依存関係および前記関係記録部に記録された依存関係に基づいて、一のカテゴリーが前記新規カテゴリーに依存し、かつ、前記新規カテゴリーが他のカテゴリーに依存し、かつ、当該他のカテゴリーが当該一のカテゴリーに依存することを条件に、依存関係が不適切である旨を利用者に警告する警告段階と
を備える方法。 - テキストに表記された表記語を変換する辞書の妥当性を評価する装置として、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している、当該情報処理装置により実現された辞書記録部と、
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している、当該情報処理装置により実現された関係記録部と、
妥当性評価の対象とすべき第1のカテゴリーの表記語と、当該表記語に対応する代表語との組を前記辞書記録部から入力し、入力した前記表記語が、前記辞書記録部における前記第1のカテゴリーとは異なる第2のカテゴリーにおける代表語と一致し、かつ、前記第2のカテゴリーが前記第1のカテゴリーに依存する依存関係が前記関係記録部に記録されていないことを条件に、入力した前記表記語および前記代表語の対応付けが妥当でないとの評価結果を出力する、前記情報処理装置により実現された評価部と、
新規カテゴリーの指定を、前記新規カテゴリーが他のカテゴリーに依存する依存関係、または、他のカテゴリーが前記新規カテゴリーに依存する依存関係に対応付けて利用者から入力する、前記情報処理装置により実現された入力部と、
入力された依存関係および前記関係記録部に記録された依存関係に基づいて、一のカテゴリーが前記新規カテゴリーに依存し、かつ、前記新規カテゴリーが他のカテゴリーに依存し、かつ、当該他のカテゴリーが当該一のカテゴリーに依存することを条件に、依存関係が不適切である旨を利用者に警告する、前記情報処理装置により実現された警告部と
を備える装置として機能させるプログラム。 - テキストに表記された表記語を変換する辞書の妥当性を評価する、情報処理装置により実現された装置であって、
少なくとも1つの前記表記語を、当該少なくとも1つの表記語を代表する代表語に対応付けて、語句のカテゴリー毎に記録している、前記情報処理装置により実現された辞書記録部と、
一の前記カテゴリーの代表語が他の前記カテゴリーの表記語と一致し得ることを条件に、当該一のカテゴリーが当該他のカテゴリーに依存する依存関係を記録している、前記情報処理装置により実現された関係記録部と、
予め定められた基準カテゴリーにおける予め定められた基準テキストにおいて、予め定められた基準語句が出現する出現頻度である基準頻度を記録している、前記情報処理装置により実現された頻度記録部と、
前記辞書記録部において前記基準カテゴリーについて記録された表記語が前記基準テキストに出現する出現頻度を算出する、前記情報処理装置により実現された頻度算出部と、
複数のテキストの各々を当該テキストの属性に対応付けて記録する、前記情報処理装置により実現されたテキスト記録部と、
予め定められた基準語句を含むテキストの集合について、属性毎のテキスト数の分布を記録している、前記情報処理装置により実現された分布記録部と、
前記テキスト記録部に記録された複数のテキストのうち、前記辞書記録部に記録された表記語を含むテキストについて、属性毎のテキスト数の分布を生成する、前記情報処理装置により実現された分布生成部と、
妥当性評価の対象とすべき第1のカテゴリーの表記語と、当該表記語に対応する代表語との組を前記辞書記録部から入力し、入力した前記表記語および前記代表語の対応付けの妥当性の評価結果を出力する、前記情報処理装置により実現された評価部とを備え、
前記関係記録部は、各々のカテゴリーが他の各々のカテゴリーに依存する依存関係の程度を示す依存度を記録しており、
前記評価部は、
第1段階において、入力した前記表記語が、前記辞書記録部における前記第1のカテゴリーとは異なる第2のカテゴリーにおける代表語と一致することを条件に、前記第1のカテゴリーおよび前記第2のカテゴリーに対応する依存度を前記関係記録部から検索し、検索された前記依存度が基準未満であれば入力した前記表記語および前記代表語の対応付けが妥当でないとの評価結果を出力し、
前記第1段階で妥当である評価されたことを条件として、続く第2段階において、前記頻度算出部により算出された出現頻度の前記基準頻度に対する乖離度が、予め定められた基準よりも大きいことを条件に、入力した前記表記語および前記代表語の対応付けが妥当でないとの評価結果を出力し、
前記第2段階で妥当である評価されたことを条件として、続く第3段階において、前記分布記録部に記録されたテキスト数の分布、および、前記分布生成部により生成されたテキスト数の分布の乖離度が、予め定められた基準より大きいことを条件に、入力した前記表記語および前記代表語の対応付けが妥当でないとの評価結果を出力する
装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005228143A JP4170325B2 (ja) | 2005-08-05 | 2005-08-05 | 辞書の妥当性を評価する装置、方法およびプログラム |
US11/498,433 US20070033008A1 (en) | 2005-08-04 | 2006-08-03 | Apparatus, method and program for evaluating validity of dictionary |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005228143A JP4170325B2 (ja) | 2005-08-05 | 2005-08-05 | 辞書の妥当性を評価する装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007042028A JP2007042028A (ja) | 2007-02-15 |
JP4170325B2 true JP4170325B2 (ja) | 2008-10-22 |
Family
ID=37718640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005228143A Expired - Fee Related JP4170325B2 (ja) | 2005-08-04 | 2005-08-05 | 辞書の妥当性を評価する装置、方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20070033008A1 (ja) |
JP (1) | JP4170325B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10733223B2 (en) * | 2008-01-08 | 2020-08-04 | International Business Machines Corporation | Term-driven records file plan and thesaurus design |
JP5454871B2 (ja) * | 2009-05-22 | 2014-03-26 | 株式会社東芝 | 辞書評価支援装置およびプログラム |
US10740381B2 (en) * | 2018-07-18 | 2020-08-11 | International Business Machines Corporation | Dictionary editing system integrated with text mining |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH083815B2 (ja) * | 1985-10-25 | 1996-01-17 | 株式会社日立製作所 | 自然言語の共起関係辞書保守方法 |
US5111398A (en) * | 1988-11-21 | 1992-05-05 | Xerox Corporation | Processing natural language text using autonomous punctuational structure |
JP2640793B2 (ja) * | 1992-01-17 | 1997-08-13 | 松下電器産業株式会社 | 共起辞書構築装置及びこの共起辞書を用いた文解析装置 |
JP2982689B2 (ja) * | 1996-04-19 | 1999-11-29 | 日本電気株式会社 | 情報量基準を用いた標準パターン作成方式 |
US5832480A (en) * | 1996-07-12 | 1998-11-03 | International Business Machines Corporation | Using canonical forms to develop a dictionary of names in a text |
JP3598742B2 (ja) * | 1996-11-25 | 2004-12-08 | 富士ゼロックス株式会社 | 文書検索装置及び文書検索方法 |
CA2242065C (en) * | 1997-07-03 | 2004-12-14 | Henry C.A. Hyde-Thomson | Unified messaging system with automatic language identification for text-to-speech conversion |
US6782510B1 (en) * | 1998-01-27 | 2004-08-24 | John N. Gross | Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields |
US6567805B1 (en) * | 2000-05-15 | 2003-05-20 | International Business Machines Corporation | Interactive automated response system |
-
2005
- 2005-08-05 JP JP2005228143A patent/JP4170325B2/ja not_active Expired - Fee Related
-
2006
- 2006-08-03 US US11/498,433 patent/US20070033008A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20070033008A1 (en) | 2007-02-08 |
JP2007042028A (ja) | 2007-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7032397B2 (ja) | 複数のデータ表現間の類似性を識別するための方法およびシステム | |
US9208450B1 (en) | Method and apparatus for template-based processing of electronic documents | |
EP2523126A2 (en) | Information processing apparatus, information processing method, program, and information processing system | |
WO2021189951A1 (zh) | 文本搜索方法、装置、计算机设备和存储介质 | |
JP3266586B2 (ja) | データ分析システム | |
US20120109963A1 (en) | Classification hierarchy regeneration system, classification hierarchy regeneration method, and classification hierarchy regeneration program | |
JP3309077B2 (ja) | 構文情報を用いた検索方法およびシステム | |
US7739743B2 (en) | Information presentation apparatus, and information presentation method and program for use therein | |
JP7193000B2 (ja) | 類似文書検索方法、類似文書検索プログラム、類似文書検索装置、索引情報作成方法、索引情報作成プログラムおよび索引情報作成装置 | |
JP4170325B2 (ja) | 辞書の妥当性を評価する装置、方法およびプログラム | |
US7684975B2 (en) | Morphological analyzer, natural language processor, morphological analysis method and program | |
JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP2006301959A (ja) | 文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体 | |
JP2009098811A (ja) | 文書分類装置およびプログラム | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP2001155027A (ja) | 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体 | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP3925418B2 (ja) | トピック境界決定装置及びプログラム | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP2003248689A (ja) | 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム | |
JP2008129662A (ja) | 情報抽出装置、情報抽出方法、情報抽出プログラム | |
JP2008084192A (ja) | 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム | |
JP2004206468A (ja) | 文書管理システム及び文書管理プログラム | |
TWI762764B (zh) | 詞彙整合裝置、方法及其電腦程式產品 | |
JP7428035B2 (ja) | データ検索装置、データ検索方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080118 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20080207 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20080226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080729 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20080729 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080806 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110815 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |