JP3983265B1 - 辞書作成支援システム、方法及びプログラム - Google Patents

辞書作成支援システム、方法及びプログラム Download PDF

Info

Publication number
JP3983265B1
JP3983265B1 JP2006262699A JP2006262699A JP3983265B1 JP 3983265 B1 JP3983265 B1 JP 3983265B1 JP 2006262699 A JP2006262699 A JP 2006262699A JP 2006262699 A JP2006262699 A JP 2006262699A JP 3983265 B1 JP3983265 B1 JP 3983265B1
Authority
JP
Japan
Prior art keywords
dictionary
candidate word
storage database
history
history storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006262699A
Other languages
English (en)
Other versions
JP2008083952A (ja
Inventor
さより 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006262699A priority Critical patent/JP3983265B1/ja
Priority to US11/819,547 priority patent/US20080077397A1/en
Application granted granted Critical
Publication of JP3983265B1 publication Critical patent/JP3983265B1/ja
Publication of JP2008083952A publication Critical patent/JP2008083952A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 無駄な作業を抑えながら、辞書に必要な情報を登録させることができるようにする。
【解決手段】 本発明の辞書作成支援システムは、辞書登録候補語の情報を辞書作成支援履歴と共に格納する履歴保存データベースを有する。また、テキストデータ列を取り込む入力手段と、入力されたテキストデータ列を解析して、所定の候補化条件を満たす辞書登録候補語を抽出し、履歴保存データベースにおける辞書登録候補語の情報を更新する候補語抽出・更新手段と、履歴保存データベースに記述されている辞書登録候補語のうち、辞書作成支援履歴についての条件も含め、所定の提示条件に合致したものを提示する候補語提示手段と、提示された辞書登録候補語に対する辞書登録の有無を取り込む登録指示取込手段と、候補語提示手段又は登録指示取込手段の処理に応じ、履歴保存データベースに記述されている辞書作成支援履歴を更新する履歴更新手段とを備える。
【選択図】 図1

Description

本発明は辞書作成支援システム、方法及びプログラムに関し、例えば、機械翻訳やキーワード検索などの自然言語処理に利用される電子辞書の作成を支援する場合に適用できるものである。
電子化された特定分野の入力文(テキスト)から専門用語を抽出する方法は、基本的には、形態素解析を行って入力文を単語単位に分割し、1〜n語からなる連続する単語列の出現頻度を計数して、出現頻度の高いものから順に専門用語として出力するものである。また、これらの単語列に、品詞による制限を設けて不要な単語列を除去したり、何らかの計算式を用いて重要度を付与したりするものもある。
このような辞書作成を支援する技術として、特許文献1に開示されたものがある。
特許文献1に開示の装置は、インターネット上のホームページからテキスト情報を取り出し、形態素解析を行った後、該装置の登録対象語であるカタカナ語を出現頻度と共に取り出して、画面に表示することにより、辞書作成を支援する。
特開2002−207731
しかしながら、特許文献1に開示された装置では、辞書候補語の抽出から登録までの作業は単発の処理となり、過去の作業を勘案しないので、無駄な作業が生じる可能性がある。すなわち、以前の登録処理において、登録不要と判断された用語や、既出現の用語が何回も登録候補語リストに出現してしまったり、逆に、それぞれのテキストでは、出現頻度などの規定の条件を満たしていなくても、数回の処理の累計では条件を越えて抽出対象になるべきものが候補語から漏れてしまったりする。
そのため、無駄な作業を抑えながら、辞書に必要な情報を登録させることができる辞書作成支援システム、方法及びプログラムが望まれている。
第1の本発明の辞書作成支援システムは、(1)辞書登録候補語の情報を辞書作成支援履歴と共に格納する履歴保存データベースと、(2)テキストデータ列を取り込む入力手段と、(3)入力されたテキストデータ列を解析して、所定の候補化条件を満たす辞書登録候補語を抽出し、上記履歴保存データベースにおける辞書登録候補語の情報を更新する候補語抽出・更新手段と、(4)上記履歴保存データベースに記述されている辞書登録候補語のうち、辞書作成支援履歴についての条件も含め、所定の提示条件に合致したものを提示する候補語提示手段と、(5)提示された辞書登録候補語に対する辞書登録の有無を取り込む登録指示取込手段と、(6)上記候補語提示手段又は上記登録指示取込手段の少なくとも一方の処理に応じ、上記履歴保存データベースに記述されている辞書作成支援履歴を更新する履歴更新手段とを備え、(7)上記履歴保存データベースにおける辞書登録候補語の情報は、辞書登録候補語の見出しと、その辞書登録候補語の頻度又は頻度に対して演算した統計量でなる評価値とを含み、(8)上記候補語抽出・更新手段は、テキストデータ列が入力される毎に、抽出された辞書登録候補語が、上記履歴保存データベースに既登録の場合には、格納している評価値を、今までの評価値と新たな抽出時の評価値とから計算される値に更新させるものであり、(9)上記候補語提示手段は、上記履歴保存データベースにおける評価値が所定の閾値以上であることを1つの提示条件としていることを特徴とする。
第2の本発明の辞書作成支援方法は、(0)履歴保存データベース、入力手段、候補語抽出・更新手段、候補語提示手段、登録指示取込手段及び履歴更新手段を備え、(1)上記履歴保存データベースは、辞書登録候補語の見出しと、その辞書登録候補語の頻度又は頻度に対して演算した統計量でなる評価値とを含む辞書登録候補語の情報を辞書作成支援履歴と共に格納しているものであり、(2)上記入力手段は、テキストデータ列を取り込み、(3)上記候補語抽出・更新手段は、入力されたテキストデータ列を解析して、所定の候補化条件を満たす辞書登録候補語を抽出し、抽出した辞書登録候補語が、上記履歴保存データベースに既登録の場合には、格納している評価値を、今までの評価値と新たな抽出時の評価値とから計算される値に更新するように上記履歴保存データベースにおける辞書登録候補語の情報を更新すると共に、抽出した辞書登録候補語が、上記履歴保存データベースに未登録の場合には、抽出した辞書登録候補語の情報を追加するように、上記履歴保存データベースにおける辞書登録候補語の情報を更新し、(4)上記候補語提示手段は、上記履歴保存データベースに記述されている辞書登録候補語のうち、辞書作成支援履歴についての条件も含むと共に、上記履歴保存データベースにおける評価値が所定の閾値以上であることを1つの提示条件として含む所定の提示条件に合致したものを提示し、(5)上記登録指示取込手段は、提示された辞書登録候補語に対する辞書登録の有無を取り込み、(6)上記履歴更新手段は、上記候補語提示手段又は上記登録指示取込手段の少なくとも一方の処理に応じ、上記履歴保存データベースに記述されている辞書作成支援履歴を更新することを特徴とする。
第3の本発明の辞書作成支援プログラムは、コンピュータを、(1)辞書登録候補語の見出しと、その辞書登録候補語の頻度又は頻度に対して演算した統計量でなる評価値とを含む辞書登録候補語の情報を辞書作成支援履歴と共に格納する履歴保存データベースと、(2)テキストデータ列を取り込む入力手段と、(3)入力されたテキストデータ列を解析して、所定の候補化条件を満たす辞書登録候補語を抽出し、抽出した辞書登録候補語が、上記履歴保存データベースに既登録の場合には、格納している評価値を、今までの評価値と新たな抽出時の評価値とから計算される値に更新するように上記履歴保存データベースにおける辞書登録候補語の情報を更新すると共に、抽出した辞書登録候補語が、上記履歴保存データベースに未登録の場合には、抽出した辞書登録候補語の情報を追加するように、上記履歴保存データベースにおける辞書登録候補語の情報を更新する候補語抽出・更新手段と、(4)上記履歴保存データベースに記述されている辞書登録候補語のうち、辞書作成支援履歴についての条件も含むと共に、上記履歴保存データベースにおける評価値が所定の閾値以上であることを1つの提示条件として含む所定の提示条件に合致したものを提示する候補語提示手段と、(5)提示された辞書登録候補語に対する辞書登録の有無を取り込む登録指示取込手段と、(6)上記候補語提示手段又は上記登録指示取込手段の少なくとも一方の処理に応じ、上記履歴保存データベースに記述されている辞書作成支援履歴を更新する履歴更新手段として機能させることを特徴とする。
本発明によれば、無駄な作業を抑えながら、辞書に必要な情報を登録させることができる辞書作成支援システム、方法及びプログラムを実現できる。
(A)主たる実施形態
以下、本発明による辞書作成支援システム、方法及びプログラムを、機械翻訳に用いる対訳辞書を作成する場合に適用した一実施形態を、図面を参照しながら説明する。
この実施形態は、過去の履歴を蓄積し、ある入力文(テキストデータ)から抽出した辞書登録候補語に対して辞書作成処理を行う場合にその情報を参照することにより、不必要な候補語の辞書への出力を抑制したり、1ファイルでは規定の条件に満たない候補語を、累計処理の結果により条件を満たすと判断した場合に、辞書へ出力したりすることを可能にしたものである。
(A−1)実施形態の構成
図1は、この実施形態の辞書作成支援システムの機能的構成を示すブロック図である。この実施形態の辞書作成支援システムは、パソコンなどの情報処理装置(1台に限定されず、複数台で分散処理し得るようにしたものであっても良い)上に、実施形態の辞書作成支援プログラム(固定データを含む)をインストールすることにより、構築されるものであるが、機能的には図1で表すことができる。
図1において、実施形態の辞書作成支援システム100は、大きくは、入出力装置1、処理装置2及び記憶装置3を有する。
入出力装置1は、入力部11及び出力部12を有する。入力部11は、辞書31に登録する内容を作成する元となる複数の入力文(テキストデータ列)や登録候補語に対する登録の指示など、各種の入力情報を取り込むものである。出力部12は、辞書31への登録候補語などを出力(主としてユーザに提示)するためのものである。
入力部11は、キーポードやマウスなどのポインティングデパイス、スキャナーと文字認識処理、マイクと音声認識処理、ファイルからの読込みなどにより、各種の入力情報を取り込む。出力部12は、ディスプレイ装置への表示、プリンタによる印刷、音声への変換及び音声出力、ファイルへの出力を行なう。
なお、入力部11及び出力部12は、ネットワーク又は所定回線を介して、他の装置とデータの入出力を行なうものであっても良い。例えば、入力文(テキストデータ列)の入力に、コンピュータ上、ネットワーク上に存在するファイルを指定したり、インターネットでの検索エンジンによる出力をそのまま利用したりすることでも良い。
記憶装置3は、ハードウェア的には、ハードディスクや光ディスク、メモリなどであり、記憶容量が大容量のものである。記憶装置3は、機能的には、履歴保存データベース31及び辞書(辞書ファイル)32を有する。履歴保存データベース31は、入力文から抽出された辞書登録候補語の履歴を保存しているものである。辞書32は、機械翻訳に利用できる情報、例えば、用語及び用語に関する情報を格納しているものである。
図2は、履歴保存データベース31の構成例を示す説明図である。図3は、辞書32の構成例を示す説明図である。
履歴保存データベース31は、頻度や重要度といった登録候補語の登録有無判断に用いる情報を格納するフィールド31aと、辞書候補語の見出しを格納するフィールド31bと、各候補語が作業者に提示済みか否か、辞書登録済みか否かといった履歴を格納するフィールド31cとを備えている。
辞書32は、少なくとも、第1言語の単語又は単語列(見出し)を格納するフィールド32aと、それに対応する第2言語の単語又は単語列(訳語)を格納するフィールド32bとを備えている。これ以外に、品詞情報や、意味情報といった翻訳に必要な情報を格納するフィールドを備えていても良く、図3は、品詞情報を格納するフィールド32cを備えている例である。
処理装置2は、ハードウェア的には、CPU、ROM、RAM、EEPROM、ハードディスクなどの辞書作成支援プログラムの実行構成(上述した入出力装置1や記憶装置3の部分を除く)が該当する。
処理装置2は、機能的には、用語抽出部21、情報更新部22及び辞書作成部23とを有する。用語抽出部21は、入力されたテキストデータ列(入力文)から辞書登録候補語を抽出するものである。情報更新部22は、抽出された用語の情報や辞書作成作業の情報を基に履歴保存データベース31の内容を書き換えるものである。辞書作成部23は、更新された履歴保存データベース31の内容を参照しながら、辞書32に登録すべき辞書登録候補語を決定、出力して辞書32を作成するものである。
用語抽出部21、情報更新部22及び辞書作成部23の機能をより具体的に説明すると、以下の通りである。
用語抽出部21は、入力部11から入力されたテキストデータ列に対し、形態素解析処理や頻度計算処理などを行い、辞書登録すべきだと判断された辞書登録候補語がテキストデータ中での出現頻度や重要度といった情報(以下、評価値と呼ぶ)と共に抽出するものである。
情報更新部22は、抽出された辞書登録候補語の情報を履歴保存データベース31に格納するものであり、格納の際において、履歴保存データベース31に辞書登録候補語が既に格納されていれば、抽出された候補語の情報(評価値)と、履歴保存データベース31に格納されていた情報から評価値の再計算を行い、履歴保存データベース31の内容を更新するものである。また、情報更新部22は、後述するように、辞書作成部23から、ユーザによって辞書登録候補語に対し辞書登録が指示されたか否かの情報を受け取った際にも、履歴保存データベース31の情報を更新するものである。
辞書作成部23は、更新された履歴保存データベース31の内容を参照し、予め設定された条件に合致する辞書登録候補語を出力部12によって出力(提示)させるものである。また、辞書作成部23は、ユーザによって辞書登録候補語に対し辞書登録が指示されたか否かの情報を情報更新部に渡すものである。
(A−2)実施形態の動作
次に、以上のような機能的構成を有する実施形態の辞書作成支援システム100の動作(実施形態の辞書作成支援方法)を、図面を参照しながら説明する。
図4は、実施形態の辞書作成支援システム100における辞書登録動作を示すフローチヤートである。
入力部11からテキストデータ列が入力されると(ステップS1)、用語抽出部21によって、入力されたテキストデータ列に対し、形態素解析処理や頻度計算処理などが実行され、辞書登録すべきだと判断された辞書登録候補語が評価値と共に抽出される(ステップS2)。
用語抽出動作の最も単純な方法として、形態素解析を行った入力テキストから単語N−gramの出現頻度を計数し、閾値を超えるものを抽出する方法を挙げることができる。これに、例えば、名詞連続のみを抽出するなど、品詞や文法構造による制限を設ける方法を適用しても良い。また、「出現頻度と連接頻度に基づく専門用語抽出」(中川、湯本、森著、2003.言語処理学会論文誌 Vol.10,No.1,pp.27−45)のように、計算によって単語列の評価値を求める方法を適用しても良い。
各用語に付与される評価値は、入力テキスト中での用語の出現頻度や、何らかの計算式(例えば、出現頻度を入力テキストの総用語数で除算する)によって算出された値である。
抽出された辞書登録候補語の情報は、情報更新部22によって、履歴保存データベース31に格納される(ステップS3)。この格納時、履歴保存データベース31に同一の辞書登録候補語が既に格納されていれば、新たなレコードを作成することなく、抽出された候補語の情報と、履歴保存データベース31に格納されていた情報から、評価値の再計算を行い、評価値だけを更新する。
そして、辞書作成部23において、更新された履歴保存データベース32の内容が参照され、予め設定された条件(例えば、評価値が閾値以上や、過去にユーザによって辞書登録が否定されていないこと)に合致する1つの辞書登録候補語を出力部12から出力させ(例えば表示させ)、ユーザに辞書32に登録するか否かを判断させる(ステップS4)。出力させる辞書登録候補語の情報には、単語列だけでなく評価値や品詞も含めるようにしても良い。
ユーザは、出力された内容を基に、その辞書登録候補語を辞書32に登録するか否かを決定し、入力部11から登録するか否かを指示する。登録する際には、ユーザは、訳語などの必要な情報も入力して辞書32への登録を指示する。
辞書作成部23は、1つの辞書登録候補語を出力させた場合には、入力部11からの登録有無の指示を待ち受けており、指示が入力されると、登録の指示か否かを判別する(ステップS5)。なお、辞書作成部23から情報更新部22に登録有無の指示内容が与えられるようになされている。
登録が指示されると、辞書作成部23によって、現在対象となっている辞書登録候補語の情報が辞書32に登録される(ステップS6)。また、情報更新部22によって、辞書32に登録した旨、又は、辞書32に未登録である旨の情報等が履歴保存データベース31に書き込まれる(ステップS7)。
対象となっている1つの辞書登録候補語についてステップS4〜S7の処理が終了すると、ユーザに辞書登録の有無を判断させていない辞書登録候補語が残っているか否かを判別し(ステップS8)、残っていなければ、図4の一連の処理を終了し、残っていれば、上述したステップS4に戻る。
図5は、情報更新部22が実行する履歴保存データベース31に対する更新動作(図4のステップS3)を示すフローチャートである。
用語抽出部21による用語抽出動作が終了すると、情報更新部22は、図5に示す処理を開始する。そしてまず、抽出された辞書登録候補語の中から1つを読み込み(ステップS11)、その辞書登録候補語が履歴保存データベース31を検索して格納されているか否かを調べる(ステップS12、S13)。
その辞書登録候補語が履歴保存データベース31に既に格納されていると、情報更新部22は、評価値を再計算した後(ステップS14)、履歴保存データベース31におけるその辞書登録候補語の情報を更新する(ステップS15)。
これに対して、ステップS11で読み込んだ辞書登録候補語が履歴保存データベース31に格納されていないものであると、情報更新部22は、履歴保存データベース31に当該候補語の評価値と見出しを新しく追加する(ステップS16)。
上述のようなステップS11〜S16でなる処理を、抽出された全ての辞書登録候補語に対して繰返し実行する(ステップS17)。
次に、具体的な例を用いて、ステップS3〜S6(履歴保存データベース31の更新動作、辞書への登録動作)の流れを説明する。
図6は、用語抽出処理によって抽出された辞書登録候補語の例を示す説明図である。図6は、用語の評価値として、入力テキスト中での出現頻度を用いている例である。
また、図6に示す辞書登録候補語が抽出された段階では、履歴保存データベース31に何も登録されていない状態であるとする。
ステップS3の履歴保存データベース31の更新動作(図5)では、まず、図6の結果より、1番目の「細胞」のデータを読み込む(ステップS11)。履歴保存データベース31を参照しても(ステップS12)、「細胞」のデータは登録されていないので(ステップS13で否定結果)、履歴保存データベース31に見出し「細胞」、評価値(=出現頻度)「11143」を新しく追加する(ステップS16)。
以上のような処理を、2番目以降の辞書登録候補語「宿主細胞」、「動物細胞」、「直物細胞」、…のデータに対し、繰り返し実行する。
図7は、図6の抽出結果を処理した後の履歴保存データベース31の内容を示す説明図である。履歴保存データベース31に何も登録されていない状態で上述した処理が実行されたので、履歴情報は、未表示(未出力)である。
次に、図7の履歴保存データベース31の内容に基づいて、辞書登録候補語を、ユーザによる登録有無の判断のために出力(表示)させる(ステップS4)。ここでは、出力させる辞書登録候補語は、その評価値(頻度)が500(閾値)以上のものとする。
図7における1番目の「細胞」は、頻度が500以上なので辞書登録候補語として出力される(ステップS4)。ここで、「細胞」は、ユーザによって、辞書登録が指示されなかったものとする(ステップS5で否定結果)。この場合、履歴保存データベース31の履歴情報欄に「表示済み(出力済み)」の情報が書き込まれる(ステップS7)。
図7における2番目の「宿主細胞」も頻度が500以上なので辞書登録候補語として出力される(ステップS4)。ユーザが必要な辞書情報(訳語、品詞など)を入力して辞書32への登録を指示すると(ステップS5で肯定結果)、辞書32に格納されると共に、履歴保存データベース31の「宿主細胞」の履歴情報欄に「辞書登録あり」の情報が書き込まれる(ステップS6、S7)。
図7の3番目以降の辞書登録候補語「動物細胞」、「直物細胞」、…のデータは頻度が500未満なので、ユーザによる登録有無の判断のための出力(表示)は実行されない。
図8は、図7の履歴保存データベース31の内容に対し、ステップS4〜S8の繰返し処理が終了した後の履歴保存データベース31の内容を示したものである。
次に、新たな入力テキストが入力され、用語抽出処理によって、図9の辞書登録候補語が得られたとする。
ステップS3の履歴保存データベース31の更新動作(図5)では、まず、図9の結果より、1番目の「細胞」のデータを読み込む(ステップS11)。履歴保存データベース31を参照すると(ステップS12)、「細胞」のデータは登録されているので(ステップS13で肯定結果)、評価値を再計算する(ステップS14)。この場合、評価値の再計算方法は、履歴保存データベース31の頻度に、新たに獲得された用語の頻度を足し合わせることにする。「細胞」の履歴保存データベース31における頻度は「11143」で、図9における頻度は「1540」であるので、新しい頻度は「12683」となり、履歴保存データベース31の「細胞」の頻度を「12683」に更新する(ステップS15)。
図9の2番目以降の辞書登録候補語「宿主細胞」、「動物細胞」、「直物細胞」、…のデータに対しても、同様の処理を繰返し行う。
図10は、図9の抽出された辞書登録候補語に対して、ステップS3の履歴保存データベース31の更新動作を行った後の履歴保存データベース31の内容を示す説明図である。
次に、図10の履歴保存データベース31の内容に基づいて、辞書登録候補語を適宜出力(表示)する(ステップS4)。ここでも、出力する辞書登録候補語は、評価値(頻度)が500以上のものとする。
図10における1番目の「細胞」は、頻度500以上であるが、履歴保存データベース31の履歴情報を見ると「表示済み」となっていて、既に出力(表示)された履歴があるので、出力させずに、次のデータに移行する(ステップS4で否定結果)。
2番目の「宿主細胞」も頻度500以上であるが、既に辞書32に登録されているので、出力(表示)させずに次のデータに移行する(ステップS4で否定結果)。
3番目の「動物細胞」は、新たに頻度が500以上になったので、辞書登録候補語として出力(表示)させる。「動物細胞」に対して、ユーザが辞書登録を指示したとすると、辞書32に登録させると共に、履歴保存データベース31の履歴情報欄に「辞書登録あり」の情報を書き込む(ステップS6、S7)。
4番目以降の辞書登録候補語は頻度500未満なので、ユーザによる登録有無の判断のための出力(表示)は実行されない。
図11は、図10の履歴保存データベース31の内容に対し、ステップS4〜S8の繰返し処理が終了した後の履歴保存データベース31の内容を示したものである。
(A−3)実施形態の効果
上記実施形態によれば、複数の入力文(テキストデータ列)に対する辞書登録作業を繰返し行う場合において、過去の登録作業の結果を履歴として参照するようにしたので、前回までの辞書作成処理において、登録不要と判断された用語や、既に登録された用語は、以降の辞書作成処理で候補語として提示されることがなくなり、重複した作業が排除され、作業効率を高めることができる。
また、上記実施形態によれば、単発の辞書作成処理では、閾値などの条件を満たさず辞書登録候補から外れる用語であっても、複数回の処理結果を累計することにより、候補語になることもある。すなわち、複数の小さいテキストを処理することによって、大きなテキストを処理したのと同様の抽出結果を得ることができる。
(B)他の実施形態
上記実施形態では、履歴保存データベースの履歴情報に「辞書登録あり」や「表示済み」と記入された辞書登録候補語は、ユーザに提示しないようにしたものを示したが、提示条件は、上記実施形態のものに限定されない。例えば、「辞書登録あり」や「表示済み」のような履歴情報と共に辞書登録候補語を表示させるようにしても良く、また、「辞書登録あり」の場合に、既に登録された辞書内容を表示させるようにしても良い。
また、上記実施形態では、訳語の情報をユーザが入力するものを示したが、訳語を空欄として辞書に登録し、既存の訳語決定方法によって、空欄の訳語を決定するようにしても良い。訳語決定方法としては、特開2006−146610や、文献『神山、伊藤著、「自律的語彙拡充を行う機械翻訳システム」、情報処理学会第65回全国大会、1B−4、2003年』に記載の方法を適用できる。
さらに、上記実施形態では、ユーザに対し、辞書登録候補語を1個ずつ提示し、登録有無を入力させるものを示したが、提示条件を満足するものを一括又は複数提示し、一方、登録有無については、個別に指示させるようにしても良い。例えば、登録有無をチェックできるチェックボックスを伴って複数の辞書登録候補語を画面表示させ、また、その画面に実行アイコンも表示させ、実行アイコンが操作されたときに、チェックボックスにチェックが入っていたものを登録が指示されたものとして取り込むようにしても良い。
さらにまた、上記実施形態では、機械翻訳に用いる対訳辞書を作成支援するものを示したが、他の辞書の作成支援にも本発明を適用することができる。例えば、見出し語とその見出し語についての説明文とでなる辞書の作成にも、本発明を適用することができる。
実施形態の辞書作成支援システムの機能的構成を示すブロック図である。 実施形態の履歴保存データベースの構成例を示す説明図である。 実施形態の辞書の構成例を示す説明図である。 実施形態の辞書作成支援システムにおける辞書登録動作を示すフローチヤートである。 実施形態の履歴保存データベースに対する更新動作を示すフローチャートである。 実施形態の用語抽出部で抽出された第1の結果例を示す説明図である。 図6の抽出結果例に対する図4のステップS3の処理後の履歴保存データベースの内容を示す説明図である。 図7のデータベース内容に対し、図4のステップS4〜S8の処理を繰返し実行後の履歴保存データベースの内容を示す説明図である。 実施形態の用語抽出部で抽出された第2の結果例を示す説明図である。 図9の抽出結果例に対する図4のステップS3の処理後の履歴保存データベースの内容を示す説明図である。 図10のデータベース内容に対し、図4のステップS4〜S8の処理を繰返し実行後の履歴保存データベースの内容を示す説明図である。
符号の説明
1…入出力装置、11…入力部、12…出力部、
2…処理装置、21…用語抽出部、22…情報更新部、23…辞書作成部、
3…記憶装置、31…履歴保存データベース、32…辞書、
100…辞書作成支援システム。

Claims (5)

  1. 辞書登録候補語の情報を辞書作成支援履歴と共に格納する履歴保存データベースと、
    テキストデータ列を取り込む入力手段と、
    入力されたテキストデータ列を解析して、所定の候補化条件を満たす辞書登録候補語を抽出し、上記履歴保存データベースにおける辞書登録候補語の情報を更新する候補語抽出・更新手段と、
    上記履歴保存データベースに記述されている辞書登録候補語のうち、辞書作成支援履歴についての条件も含め、所定の提示条件に合致したものを提示する候補語提示手段と、
    提示された辞書登録候補語に対する辞書登録の有無を取り込む登録指示取込手段と、
    上記候補語提示手段又は上記登録指示取込手段の少なくとも一方の処理に応じ、上記履歴保存データベースに記述されている辞書作成支援履歴を更新する履歴更新手段とを備え、
    上記履歴保存データベースにおける辞書登録候補語の情報は、辞書登録候補語の見出しと、その辞書登録候補語の頻度又は頻度に対して演算した統計量でなる評価値とを含み、
    上記候補語抽出・更新手段は、テキストデータ列が入力される毎に、抽出された辞書登録候補語が、上記履歴保存データベースに既登録の場合には、格納している評価値を、今までの評価値と新たな抽出時の評価値とから計算される値に更新させるものであり、
    上記候補語提示手段は、上記履歴保存データベースにおける評価値が所定の閾値以上であることを1つの提示条件としている
    ことを特徴とする辞書作成支援システム。
  2. 上記履歴更新手段は、上記候補語提示手段による提示がなされたか否かを辞書作成支援履歴に記述させるものであり、
    上記候補語提示手段は、過去に提示がなされた辞書登録候補語を再度提示させないものである
    ことを特徴とする請求項1に記載の辞書作成支援システム。
  3. 上記履歴更新手段は、上記登録指示取込手段が取り込んだ辞書登録の有無を辞書作成支援履歴に記述させるものであり、
    上記候補語提示手段は、辞書に登録された辞書登録候補語を再度提示させないものである
    ことを特徴とする請求項1又は2に記載の辞書作成支援システム。
  4. 履歴保存データベース、入力手段、候補語抽出・更新手段、候補語提示手段、登録指示取込手段及び履歴更新手段を備え、
    上記履歴保存データベースは、辞書登録候補語の見出しと、その辞書登録候補語の頻度又は頻度に対して演算した統計量でなる評価値とを含む辞書登録候補語の情報を辞書作成支援履歴と共に格納しているものであり、
    上記入力手段は、テキストデータ列を取り込み、
    上記候補語抽出・更新手段は、入力されたテキストデータ列を解析して、所定の候補化条件を満たす辞書登録候補語を抽出し、抽出した辞書登録候補語が、上記履歴保存データベースに既登録の場合には、格納している評価値を、今までの評価値と新たな抽出時の評価値とから計算される値に更新するように上記履歴保存データベースにおける辞書登録候補語の情報を更新すると共に、抽出した辞書登録候補語が、上記履歴保存データベースに未登録の場合には、抽出した辞書登録候補語の情報を追加するように、上記履歴保存データベースにおける辞書登録候補語の情報を更新し、
    上記候補語提示手段は、上記履歴保存データベースに記述されている辞書登録候補語のうち、辞書作成支援履歴についての条件も含むと共に、上記履歴保存データベースにおける評価値が所定の閾値以上であることを1つの提示条件として含む所定の提示条件に合致したものを提示し、
    上記登録指示取込手段は、提示された辞書登録候補語に対する辞書登録の有無を取り込み、
    上記履歴更新手段は、上記候補語提示手段又は上記登録指示取込手段の少なくとも一方の処理に応じ、上記履歴保存データベースに記述されている辞書作成支援履歴を更新する
    ことを特徴とする辞書作成支援方法。
  5. コンピュータを、
    辞書登録候補語の見出しと、その辞書登録候補語の頻度又は頻度に対して演算した統計量でなる評価値とを含む辞書登録候補語の情報を辞書作成支援履歴と共に格納する履歴保存データベースと、
    テキストデータ列を取り込む入力手段と、
    入力されたテキストデータ列を解析して、所定の候補化条件を満たす辞書登録候補語を抽出し、抽出した辞書登録候補語が、上記履歴保存データベースに既登録の場合には、格納している評価値を、今までの評価値と新たな抽出時の評価値とから計算される値に更新するように上記履歴保存データベースにおける辞書登録候補語の情報を更新すると共に、抽出した辞書登録候補語が、上記履歴保存データベースに未登録の場合には、抽出した辞書登録候補語の情報を追加するように、上記履歴保存データベースにおける辞書登録候補語の情報を更新する候補語抽出・更新手段と、
    上記履歴保存データベースに記述されている辞書登録候補語のうち、辞書作成支援履歴についての条件も含むと共に、上記履歴保存データベースにおける評価値が所定の閾値以上であることを1つの提示条件として含む所定の提示条件に合致したものを提示する候補語提示手段と、
    提示された辞書登録候補語に対する辞書登録の有無を取り込む登録指示取込手段と、
    上記候補語提示手段又は上記登録指示取込手段の少なくとも一方の処理に応じ、上記履歴保存データベースに記述されている辞書作成支援履歴を更新する履歴更新手段
    として機能させることを特徴とする辞書作成支援プログラム。
JP2006262699A 2006-09-27 2006-09-27 辞書作成支援システム、方法及びプログラム Active JP3983265B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006262699A JP3983265B1 (ja) 2006-09-27 2006-09-27 辞書作成支援システム、方法及びプログラム
US11/819,547 US20080077397A1 (en) 2006-09-27 2007-06-28 Dictionary creation support system, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006262699A JP3983265B1 (ja) 2006-09-27 2006-09-27 辞書作成支援システム、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP3983265B1 true JP3983265B1 (ja) 2007-09-26
JP2008083952A JP2008083952A (ja) 2008-04-10

Family

ID=38595950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006262699A Active JP3983265B1 (ja) 2006-09-27 2006-09-27 辞書作成支援システム、方法及びプログラム

Country Status (2)

Country Link
US (1) US20080077397A1 (ja)
JP (1) JP3983265B1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
JP5340584B2 (ja) * 2007-11-28 2013-11-13 インターナショナル・ビジネス・マシーンズ・コーポレーション 電子メッセージの読解を支援する装置及び方法
JP5155351B2 (ja) * 2010-03-23 2013-03-06 ヤフー株式会社 地図データ処理装置及び方法
JP5090490B2 (ja) * 2010-03-23 2012-12-05 ヤフー株式会社 代表表記抽出装置、方法及びプログラム
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
KR101672579B1 (ko) * 2010-11-05 2016-11-03 라쿠텐 인코포레이티드 키워드 추출에 관한 시스템 및 방법
US9235565B2 (en) * 2012-02-14 2016-01-12 Facebook, Inc. Blending customized user dictionaries
US10684771B2 (en) * 2013-08-26 2020-06-16 Samsung Electronics Co., Ltd. User device and method for creating handwriting content
US20150088493A1 (en) * 2013-09-20 2015-03-26 Amazon Technologies, Inc. Providing descriptive information associated with objects
JP2016177348A (ja) * 2015-03-18 2016-10-06 株式会社東芝 更新支援装置、方法およびプログラム
US11636180B2 (en) 2021-09-28 2023-04-25 The 28Th Research Institute Of China Electronics Technology Group Corporation Flight pushback state monitoring method based on multi-modal data fusion
CN113590766B (zh) * 2021-09-28 2021-12-17 中国电子科技集团公司第二十八研究所 一种基于多模态数据融合的航班推出状态监视方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3531468B2 (ja) * 1998-03-30 2004-05-31 株式会社日立製作所 文書処理装置及び方法
US20040205671A1 (en) * 2000-09-13 2004-10-14 Tatsuya Sukehiro Natural-language processing system
US7254773B2 (en) * 2000-12-29 2007-08-07 International Business Machines Corporation Automated spell analysis
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
US7490033B2 (en) * 2005-01-13 2009-02-10 International Business Machines Corporation System for compiling word usage frequencies

Also Published As

Publication number Publication date
JP2008083952A (ja) 2008-04-10
US20080077397A1 (en) 2008-03-27

Similar Documents

Publication Publication Date Title
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
JP5362095B2 (ja) インプットメソッドエディタ
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US20200372088A1 (en) Recommending web api's and associated endpoints
JP2008287406A (ja) 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2005135113A (ja) 電子機器装置、関連語抽出方法及びプログラム
JPH09198395A (ja) 文書検索装置
JP2008052548A (ja) 検索プログラム、情報検索装置及び情報検索方法
JP4431759B2 (ja) 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP5380989B2 (ja) 辞書機能を備えた電子装置およびプログラム
JP2010231149A (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP2004046775A (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP2005122665A (ja) 電子機器装置、関連語データベースの更新方法、プログラム
CN112732885A (zh) 用于问答系统的答案扩展方法、装置及电子设备
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP4015661B2 (ja) 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体
JP4980604B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
JP7131518B2 (ja) 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム
JPH07325826A (ja) 日本語処理システム
JP5212725B2 (ja) 電子書籍作成支援装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070703

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 3983265

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130713

Year of fee payment: 6