JP2009245235A - Dictionary maintenance system and method, and program - Google Patents

Dictionary maintenance system and method, and program Download PDF

Info

Publication number
JP2009245235A
JP2009245235A JP2008092012A JP2008092012A JP2009245235A JP 2009245235 A JP2009245235 A JP 2009245235A JP 2008092012 A JP2008092012 A JP 2008092012A JP 2008092012 A JP2008092012 A JP 2008092012A JP 2009245235 A JP2009245235 A JP 2009245235A
Authority
JP
Japan
Prior art keywords
storage unit
conversion pattern
character string
pattern storage
reading information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008092012A
Other languages
Japanese (ja)
Inventor
Daisaku Taguchi
大作 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Software Kyushu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Software Kyushu Ltd filed Critical NEC Software Kyushu Ltd
Priority to JP2008092012A priority Critical patent/JP2009245235A/en
Publication of JP2009245235A publication Critical patent/JP2009245235A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a dictionary maintenance system allowing facilitation of registration work of reading information. <P>SOLUTION: A special conversion pattern storage part 121 associates and stores a character string and its reading information. A general-purpose conversion pattern storage part 122 associates and stores the character string and reading information different from the reading information stored in the special conversion pattern storage part 121. A retrieval means 111 registers an input character string in a special conversion pattern registration waiting storage part 123 when deciding that the input character string is not stored in the special conversion pattern storage part 121 and the general-purpose conversion pattern storage part 122. A maintenance means 114 registers the character string and its reading information in the special conversion pattern storage part 121 about the character string stored in the special conversion pattern registration waiting storage part 123. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、辞書メンテナンスシステム、方法、及び、プログラムに関し、更に詳しくは、文字列と読み情報とを対応付けて記憶する変換パターン記憶部(辞書)のメンテナンスを行う辞書メンテナンスシステム、方法、及び、プログラムに関する。   The present invention relates to a dictionary maintenance system, method, and program, and more specifically, a dictionary maintenance system, method, and method for performing maintenance of a conversion pattern storage unit (dictionary) that stores character strings and reading information in association with each other. Regarding the program.

音声を入力し、音声認識を行って文字列を得る音声認識システムがある。音声認識システムは、文字列と読み情報とを対応付けて記憶する辞書を用いて、音声を文字列に変換する。辞書を用いた文字列変換に関して、特許文献1には、漢字情報(文字列)と読み情報とを対応付けて記憶する辞書を用いて、日本語カナ情報変換を行うシステムが記載されている。特許文献1に記載のシステムは、複合語等の連鎖的な用語を先端部分から順次に変換していくことにより、大規模な辞書を必要とせずに、カナ変換を可能としている。   There is a voice recognition system that inputs a voice and performs voice recognition to obtain a character string. The speech recognition system converts speech into a character string using a dictionary that stores character strings and reading information in association with each other. Regarding character string conversion using a dictionary, Patent Document 1 describes a system that performs Japanese kana information conversion using a dictionary that stores kanji information (character strings) and reading information in association with each other. The system described in Patent Document 1 enables kana conversion without the need for a large-scale dictionary by sequentially converting chained terms such as compound words from the tip.

ところで、読み情報をキーとして登録したマスタを利用する形態の音声認識システムの利用に当たっては、音声辞書の整備が不可欠である。しかし、音声辞書の中で最も重要な読み情報は、システムの構築/運用において整備が不十分な場合が多い。特許文献1には、辞書を用いたカナ変換が記載されるのみで、辞書整備については記載されていない。従って、特許文献1のシステムでは、一般的でない読みの情報を保存し、後日活用していくことはできない。   By the way, in order to use a speech recognition system using a master registered with reading information as a key, it is essential to maintain a speech dictionary. However, the most important reading information in the speech dictionary is often insufficiently maintained in system construction / operation. Patent Document 1 only describes kana conversion using a dictionary, but does not describe dictionary maintenance. Therefore, in the system of Patent Document 1, uncommon reading information cannot be stored and used at a later date.

上記問題に対して、特許文献2では、一般的な辞典である固定辞典と、動的辞典との2種類の辞典を用いて音声認識用の辞書を作成することが記載されている。特許文献2では、電子番組表(EPG)の受信後、受信データを、「番組内容」、「出演者」などの項目に分類する。その後、分類した各項目について、読みが付与済みの単語を抽出し、抽出した単語が動的辞典に記憶済みか否かを調べる。記憶されていないときは、動的辞典に追加登録する。動的辞典の作成後、動的辞典と電子番組表データとのマッチングを行い、一致した単語については、その読みを付与して、音声認識用の認識辞書に登録する。   In response to the above problem, Patent Document 2 describes that a dictionary for speech recognition is created using two types of dictionaries, a fixed dictionary and a dynamic dictionary. In Patent Document 2, after receiving an electronic program guide (EPG), received data is classified into items such as “program contents” and “performers”. Then, for each classified item, a word that has been given a reading is extracted, and it is checked whether or not the extracted word is stored in the dynamic dictionary. If it is not stored, add it to the dynamic dictionary. After the dynamic dictionary is created, matching between the dynamic dictionary and the electronic program guide data is performed, and a reading of the matched word is given and registered in the recognition dictionary for speech recognition.

辞書整備に関する別の技術として、特許文献3に記載の技術がある。特許文献3では、構文分解手段と、新規用語判別手段と、辞書更新手段とを用いる。構文分解手段は、「新規用語対象物件」を単語・熟語単位に分割して蓄積する。新規用語判別手段は、分解された単語・熟語の中から新規用語を選別し、選別した用語が用語辞書又はユーザ辞書に登録済みであるか否かを判定する。新規用語判別手段は、未登録の新規用語を、辞書メンテナンス部に渡す。辞書メンテナンス部は、渡された新規用語を、用語辞書又はユーザ辞書に、新たな用語として追加登録する。追加登録の際には、音声認識入力装置等の補助入力部を用いて、カナ情報などの付加情報を付加する。
特開昭61−127063号公報 特開2005−227545号公報 特開平5−324611号公報
As another technique related to dictionary maintenance, there is a technique described in Patent Document 3. In Patent Document 3, syntax decomposition means, new term discrimination means, and dictionary update means are used. The synthesizing means divides and accumulates “new term object” in units of words and idioms. The new term discriminating unit selects a new term from the decomposed words / idioms, and determines whether the selected term is already registered in the term dictionary or the user dictionary. The new term discrimination means passes the unregistered new term to the dictionary maintenance unit. The dictionary maintenance unit additionally registers the transferred new term as a new term in the term dictionary or the user dictionary. At the time of additional registration, additional information such as kana information is added using an auxiliary input unit such as a voice recognition input device.
JP 61-127063 A JP 2005-227545 A JP-A-5-324611

特許文献2に記載の技術で、動的辞書に登録されるのは、電子番組表にて、読みが付与された単語のみである。従って、読みが付与されていない単語は、動的辞典に登録されることはなく、その単語を、認識用辞書に登録することはできない。特許文献3に記載の技術では、新規用語を判別し、補助入力装置を用いてカナ情報を入力し、用語辞書又はユーザ辞書に登録する。このようにすることで、あらかじめ読み情報が付与されいない用語についても、辞書登録が可能である。しかし、特許文献3では、新規用語が発生するたびに、その都度、補助入力装置によるキーワード入力が必要である。このため、辞書登録作業が煩雑である。   With the technique described in Patent Document 2, only words that are read in the electronic program guide are registered in the dynamic dictionary. Therefore, a word to which no reading is given is not registered in the dynamic dictionary, and the word cannot be registered in the recognition dictionary. In the technique described in Patent Document 3, a new term is identified, kana information is input using an auxiliary input device, and is registered in a term dictionary or a user dictionary. In this way, dictionary registration is also possible for terms that have not been previously read. However, in Patent Document 3, every time a new term is generated, it is necessary to input a keyword using an auxiliary input device. For this reason, the dictionary registration work is complicated.

本発明は、上記関連技術の問題点を解消し、読み情報の登録作業を簡易化できる辞書メンテナンスシステム、方法、及び、プログラムを提供する。   The present invention provides a dictionary maintenance system, method, and program capable of solving the problems of the related art and simplifying the reading information registration work.

上記目的を達成するために、本発明の辞書メンテナンスシステムは、文字列と読み情報とを対応付けて記憶する第1の変換パターン記憶部と、前記文字列と前記第1の変換パターン記憶部に記憶された読み情報と異なる読み情報とを対応付けて記憶する第2の変換パターン記憶部と、入力された文字列が、前記第1の変換パターン記憶部と前記第2の変換パターン記憶部に記憶されていない場合に、入力された前記文字列を登録待ち記憶部に記憶する検索手段と、前記登録待ち記憶部に記憶された文字列と当該文字列に対して入力された読み情報とを対応付けて前記第1の変換パターン記憶部に登録するメンテナンス手段とを備えることを特徴とする。   In order to achieve the above object, the dictionary maintenance system of the present invention includes a first conversion pattern storage unit that stores a character string and reading information in association with each other, and the character string and the first conversion pattern storage unit. A second conversion pattern storage unit that stores the stored reading information and different reading information in association with each other, and the input character string is stored in the first conversion pattern storage unit and the second conversion pattern storage unit. Search means for storing the input character string in a registration waiting storage unit when not stored, a character string stored in the registration waiting storage unit, and reading information input to the character string And maintenance means for registering in the first conversion pattern storage unit in association with each other.

本発明の辞書メンテナンス方法は、コンピュータを用いて、文字列に対して読み情報を登録する辞書メンテナンス方法であって、前記コンピュータが、入力された文字列が、文字列と読み情報とを対応付けて記憶する第1の変換パターン記憶部、及び、前記文字列と前記第1の変換パターン記憶部に記憶された読み情報と異なる読み情報とを対応付けて記憶する第2の変換パターン記憶部の少なくとも一方に記憶されているか否かを判断するステップと、前記コンピュータが、入力された前記文字列が前記第1の変換パターン記憶部及び前記第2の変換パターン記憶部に記憶されていないと判断すると、入力された前記文字列を登録待ち記憶部に記憶するステップと、前記コンピュータが、前記登録待ち記憶部に記憶された文字列と当該文字列に対して入力された読み情報とを対応付けて前記第1の変換パターン記憶部に登録するステップとを有することを特徴とする。   The dictionary maintenance method of the present invention is a dictionary maintenance method for registering reading information for a character string using a computer, wherein the computer associates the character string with the reading information. A first conversion pattern storage unit that stores the character string, and a second conversion pattern storage unit that stores the character string and reading information different from the reading information stored in the first conversion pattern storage unit in association with each other. A step of determining whether or not the character string is stored in at least one; and the computer determines that the input character string is not stored in the first conversion pattern storage unit and the second conversion pattern storage unit Then, the step of storing the input character string in the registration waiting storage unit, and the computer stores the character string stored in the registration waiting storage unit and the character Characterized in that a step of registering in association with reading information input to the first conversion pattern storage unit relative.

本発明のプログラムは、コンピュータに、文字列に対して読み情報を登録する処理を実行させるプログラムであって、前記コンピュータに、入力された文字列が、文字列と読み情報とを対応付けて記憶する第1の変換パターン記憶部、及び、前記文字列と前記第1の変換パターン記憶部に記憶された読み情報と異なる読み情報とを対応付けて記憶する第2の変換パターン記憶部の少なくとも一方に記憶されているか否かを判断する処理と、入力された前記文字列が前記第1の変換パターン記憶部及び前記第2の変換パターン記憶部に記憶されていないと判断すると、入力された前記文字列を登録待ち記憶部に記憶する処理と、前記登録待ち記憶部に記憶された文字列と当該文字列に対して入力された読み情報とを対応付けて前記第1の変換パターン記憶部に登録する処理とを実行させることを特徴とする。   A program according to the present invention is a program for causing a computer to execute processing for registering reading information for a character string, and the input character string is stored in the computer in association with the character string and the reading information. At least one of a first conversion pattern storage unit and a second conversion pattern storage unit that stores the character string and reading information different from the reading information stored in the first conversion pattern storage unit in association with each other And determining whether the input character string is not stored in the first conversion pattern storage unit and the second conversion pattern storage unit. The process of storing the character string in the registration waiting storage unit, the character string stored in the registration waiting storage unit, and the reading information input to the character string are associated with each other in the first conversion parameter. Characterized in that to execute a process of registering the over down storage unit.

本発明の辞書メンテナンスシステム、方法、及び、プログラムは、読み情報の登録作業を簡易化できる。   The dictionary maintenance system, method, and program of the present invention can simplify reading information registration work.

以下、図面を参照し、本発明の実施の形態を詳細に説明する。図1は、本発明の一実施形態の辞書メンテナンスシステムの構成を示している。辞書メンテナンスシステムは、入力装置100、データ処理装置110、記憶装置120、及び、出力装置130を有する。入力装置100は、HDD、FDD、CDドライブ等のデータ入力装置である。データ処理装置110は、プログラム制御により動作する。記憶装置120は、情報を記憶する記憶装置である。出力装置130は、ディスプレイ装置や印刷装置等の出力装置である。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 shows the configuration of a dictionary maintenance system according to an embodiment of the present invention. The dictionary maintenance system includes an input device 100, a data processing device 110, a storage device 120, and an output device 130. The input device 100 is a data input device such as an HDD, FDD, or CD drive. The data processing device 110 operates under program control. The storage device 120 is a storage device that stores information. The output device 130 is an output device such as a display device or a printing device.

入力装置100は、データ処理装置110に、文字列を渡す。入力装置100からデータ処理装置110に渡される文字列の単位は、単語単位であるとする。記憶装置120は、特殊変換パターン記憶部(第1の変換パターン記憶部)121と、汎用変換パターン記憶部(第2の変換パターン記憶部)122と、特殊変換パターン登録待ち記憶部123とを有する。汎用変換パターン記憶部122は、日本語名称と、一般的な読み情報とをあらかじめ記憶している。特殊変換パターン記憶部121は、日本語名称と、独自の読み情報を記憶している。特殊変換パターン登録待ち記憶部123には、特殊変換パターン記憶部121に登録すべき単語が登録される。   The input device 100 passes a character string to the data processing device 110. The unit of the character string passed from the input device 100 to the data processing device 110 is assumed to be a word unit. The storage device 120 includes a special conversion pattern storage unit (first conversion pattern storage unit) 121, a general-purpose conversion pattern storage unit (second conversion pattern storage unit) 122, and a special conversion pattern registration waiting storage unit 123. . The general-purpose conversion pattern storage unit 122 stores a Japanese name and general reading information in advance. The special conversion pattern storage unit 121 stores a Japanese name and unique reading information. In the special conversion pattern registration waiting storage unit 123, words to be registered in the special conversion pattern storage unit 121 are registered.

データ処理装置110は、検索手段111と、メンテナンス手段114とを有する。検索手段111は、特殊変換パターン記憶部121と汎用変換パターン記憶部122とを検索し、入力装置100に入力された文字列に一致する文字列が、特殊変換パターン記憶部121及び汎用変換パターン記憶部122の少なくとも一方に記憶されているか否かを判断する。検索手段111は、入力文字列に一致する文字列が存在するときは、特殊変換パターン記憶部121又は汎用変換パターン記憶部122から当該文字列に対する読み情報を取得し、出力装置130に出力する。その際、検索手段111は、特殊変換パターン記憶部121と汎用変換パターン記憶部122との双方に一致する文字列に対する読み情報が存在するときは、特殊変換パターン記憶部121に記憶された読み情報を優先するものとする。検索手段111は、入力文字列に一致する文字列が存在しないときは、当該文字列を、特殊変換パターン登録待ち記憶部123に記憶する。   The data processing apparatus 110 includes a search unit 111 and a maintenance unit 114. The search unit 111 searches the special conversion pattern storage unit 121 and the general-purpose conversion pattern storage unit 122, and the character string that matches the character string input to the input device 100 is the special conversion pattern storage unit 121 and the general-purpose conversion pattern storage. It is determined whether or not it is stored in at least one of the sections 122. When there is a character string that matches the input character string, the search unit 111 acquires reading information for the character string from the special conversion pattern storage unit 121 or the general-purpose conversion pattern storage unit 122 and outputs the read information to the output device 130. At that time, when there is reading information for a character string that matches both the special conversion pattern storage unit 121 and the general-purpose conversion pattern storage unit 122, the search unit 111 reads the reading information stored in the special conversion pattern storage unit 121. Shall take precedence. When there is no character string that matches the input character string, the search unit 111 stores the character string in the special conversion pattern registration waiting storage unit 123.

検索手段111は、第1の検索手段112と第2の検索手段113とを含む。第1の検索手段112は、データ処理装置110が入力装置100から文字列を受け取ると、特殊変換パターン記憶部121を検索し、入力装置100から渡された文字列に一致する単語が存在するか否かを判定する。第1の検索手段112は、渡された文字列に一致する単語が特殊変換パターン記憶部121に存在すると判定すると、特殊変換パターン記憶部121から当該単語の読み情報を取得し、出力装置130に出力する。第1の検索手段112は、入力装置100から渡された文字列に一致する単語が特殊変換パターン記憶部121に存在しないと判定すると、当該文字列を、第2の検索手段113に渡す。   The search unit 111 includes a first search unit 112 and a second search unit 113. When the data processing device 110 receives a character string from the input device 100, the first search unit 112 searches the special conversion pattern storage unit 121, and whether there is a word that matches the character string passed from the input device 100. Determine whether or not. When the first search unit 112 determines that a word that matches the passed character string exists in the special conversion pattern storage unit 121, the first search unit 112 acquires the reading information of the word from the special conversion pattern storage unit 121 and sends it to the output device 130. Output. If the first search unit 112 determines that a word matching the character string passed from the input device 100 does not exist in the special conversion pattern storage unit 121, the first search unit 112 passes the character string to the second search unit 113.

第2の検索手段113は、第1の検索手段112から文字列を受け取ると、汎用変換パターン記憶部122を検索し、第1の検索手段112から渡された文字列に一致する単語が存在するか否かを判定する。第2の検索手段113は、渡された文字列に一致する単語が汎用変換パターン記憶部122に存在すると判定すると、汎用変換パターン記憶部122から当該単語の読み情報を取得し、出力装置130に出力する。存在しないと判定した場合は、渡された文字列(単語)を、特殊変換パターン登録待ち記憶部123に登録する。   When the second search unit 113 receives the character string from the first search unit 112, the second search unit 113 searches the general-purpose conversion pattern storage unit 122 and there is a word that matches the character string passed from the first search unit 112. It is determined whether or not. If the second search unit 113 determines that a word that matches the passed character string exists in the general-purpose conversion pattern storage unit 122, the second search unit 113 acquires the reading information of the word from the general-purpose conversion pattern storage unit 122 and sends it to the output device 130. Output. If it is determined that it does not exist, the passed character string (word) is registered in the special conversion pattern registration waiting storage unit 123.

メンテナンス手段114は、オペレータに対し、特殊変換パターン記憶部121への新規登録、及び、登録済み内容の修正/削除を行う機能を提供する。メンテナンス手段114は、オペレータが、特殊変換パターン記憶部121への新規登録を指示すると、特殊変換パターン登録待ち記憶部123に登録された単語をオペレータに提示し、読み情報の入力を促す。オペレータが、読み情報を入力すると、当該単語と読み情報とを対応付けて、特殊変換パターン記憶部121に登録する。   The maintenance unit 114 provides the operator with a function of newly registering in the special conversion pattern storage unit 121 and correcting / deleting registered contents. When the operator instructs new registration in the special conversion pattern storage unit 121, the maintenance unit 114 presents the word registered in the special conversion pattern registration waiting storage unit 123 to the operator and prompts the user to input reading information. When the operator inputs reading information, the word and the reading information are associated with each other and registered in the special conversion pattern storage unit 121.

また、メンテナンス手段114は、オペレータが特殊変換パターン記憶部121の修正/削除を指示すると、特殊変換パターン記憶部121から、登録済みの単語と読み情報とを読み出し、オペレータに提示する。オペレータは、提示された内容を見て、読み情報の修正や削除を行う。オペレータは、例えば、誤った読み情報を発見したときは、正しい読み情報を入力する。メンテナンス手段114は、オペレータが、修正したい項目を選び、修正した読み情報を入力すると、それに従って、特殊変換パターン記憶部121の内容を更新(変更)する。   Further, when the operator instructs correction / deletion of the special conversion pattern storage unit 121, the maintenance unit 114 reads the registered word and the reading information from the special conversion pattern storage unit 121 and presents them to the operator. The operator looks at the presented content and corrects or deletes the reading information. For example, when the operator finds incorrect reading information, the operator inputs correct reading information. When the operator selects an item to be corrected and inputs the corrected reading information, the maintenance unit 114 updates (changes) the contents of the special conversion pattern storage unit 121 accordingly.

続いて、動作手順について説明する。まず、特殊変換パターン登録待ち記憶部123に単語を登録する際の手順について説明する。図2に、特殊変換パターン登録待ち記憶部123に単語を登録する際の動作手順を示す。第1の検索手段112は、入力装置100から与えられた文字列を受け取る(ステップS1)。第1の検索手段112は、特殊変換パターン記憶部121を検索し(ステップS2)、入力文字列と同じ単語が特殊変換パターン記憶部121に記憶されているか否かを判定する(ステップS3)。記憶されていれば、特殊変換パターン記憶部121から当該単語の読み情報を取得し、出力装置130に出力する(ステップS4)。   Subsequently, an operation procedure will be described. First, a procedure for registering a word in the special conversion pattern registration waiting storage unit 123 will be described. FIG. 2 shows an operation procedure when a word is registered in the special conversion pattern registration waiting storage unit 123. The first search means 112 receives the character string given from the input device 100 (step S1). The first search means 112 searches the special conversion pattern storage unit 121 (step S2), and determines whether or not the same word as the input character string is stored in the special conversion pattern storage unit 121 (step S3). If stored, the reading information of the word is acquired from the special conversion pattern storage unit 121 and output to the output device 130 (step S4).

第1の検索手段112は、ステップS3で、入力文字列と同じ単語が特殊変換パターン記憶部121に記憶されていないと判定すると、第2の検索手段113に、入力文字列を渡す(ステップS5)。第2の検索手段113は、汎用変換パターン記憶部122を検索し(ステップS6)、入力文字列と同じ単語が汎用変換パターン記憶部122に記憶されているか否かを判定する(ステップS7)。記憶されていないときは、入力文字列を、特殊変換パターン登録待ち記憶部123に登録する(ステップS9)。記憶されていれば、汎用変換パターン記憶部122から当該単語の読み情報を取得し、出力装置130に出力する(ステップS8)。オペレータは、ステップS4又はステップS8で出力装置130に出力された読み情報のうちで、所望の読み情報を利用可能である。   If the first search unit 112 determines in step S3 that the same word as the input character string is not stored in the special conversion pattern storage unit 121, the first search unit 112 passes the input character string to the second search unit 113 (step S5). ). The second search unit 113 searches the general-purpose conversion pattern storage unit 122 (step S6) and determines whether or not the same word as the input character string is stored in the general-purpose conversion pattern storage unit 122 (step S7). When not stored, the input character string is registered in the special conversion pattern registration waiting storage unit 123 (step S9). If stored, the word reading information is acquired from the general-purpose conversion pattern storage unit 122 and output to the output device 130 (step S8). The operator can use desired reading information among the reading information output to the output device 130 in step S4 or step S8.

次に、特殊変換パターン記憶部121に読み情報を登録する際の手順について説明する。図3に、特殊変換パターン記憶部121への登録時の動作手順を示す。オペレータは、読み情報の登録を指示する。メンテナンス手段114は、特殊変換パターン登録待ち記憶部123から、特殊変換パターン登録待ち記憶部123に登録された文字列を取得する(ステップS10)。メンテナンス手段114は、取得した文字列のリストをオペレータに提示し、読み情報の入力を促す(ステップS11)。   Next, a procedure for registering reading information in the special conversion pattern storage unit 121 will be described. FIG. 3 shows an operation procedure at the time of registration in the special conversion pattern storage unit 121. The operator instructs registration of reading information. The maintenance unit 114 acquires the character string registered in the special conversion pattern registration waiting storage unit 123 from the special conversion pattern registration waiting storage unit 123 (step S10). The maintenance unit 114 presents the acquired list of character strings to the operator and prompts input of reading information (step S11).

オペレータは、提示された文字列に対して読み情報を入力する。メンテナンス手段114は、読み情報が入力されると、文字列と、入力された読み情報と対応付けて、特殊変換パターン記憶部121に登録する(ステップS12)。このように、特殊変換パターン登録待ち記憶部123を用いることで、オペレータは、読み情報が記憶されていない文字列について、一括で、読み情報の入力を行うことができる。従って、読み情報登録の作業を簡易化できる。   The operator inputs reading information for the presented character string. When the reading information is input, the maintenance unit 114 registers the character string in association with the input reading information in the special conversion pattern storage unit 121 (step S12). As described above, by using the special conversion pattern registration waiting storage unit 123, the operator can input the reading information in a lump for character strings in which reading information is not stored. Therefore, the reading information registration work can be simplified.

以下、具体例を用いて説明する。図4に、検索の一例を示す。特殊変換パターン記憶部121には、文字列「福岡県前原市」に対する読み情報として「ふくおかけんまえばるし」が登録されているとする。図2のステップS1で、入力装置100から第1の検索手段112に「福岡県前原市」が入力される。第1の検索手段112は、ステップS2で特殊変換パターン記憶部121を検索する。「福岡県前原市」は、特殊変換パターン記憶部121に記憶されているため、第1の検索手段112は、ステップS3からステップS4へ移行して、「福岡県前原市」の読み情報である「ふくおかけんまえばるし」を出力装置130に出力する。   Hereinafter, a specific example will be described. FIG. 4 shows an example of the search. In the special conversion pattern storage unit 121, it is assumed that “Fukukake Nambarushi” is registered as reading information for the character string “Maebaru City, Fukuoka Prefecture”. 2, “Fukuoka Prefecture Maebara City” is input to the first search means 112 from the input device 100. The first search means 112 searches the special conversion pattern storage unit 121 in step S2. Since “Fukuoka Prefecture Maebara City” is stored in the special conversion pattern storage unit 121, the first search means 112 shifts from Step S3 to Step S4, and is reading information of “Fukuoka Prefecture Maebara City”. “Fukukake Nambabarushi” is output to the output device 130.

また、別例として、第1の検索手段112に、文字列「苦土重焼燐」が入力された場合を考える。この場合の動作を図5に示す。第1の検索手段112は、ステップS2で、特殊変換パターン記憶部121を検索する。しかし、特殊変換パターン記憶部121には、「苦土重焼燐」に対応する読み情報はない。このため、第1の検索手段112は、ステップS3からステップS5へ移行し、文字列「苦土重焼燐」を、第2の検索手段113に渡す。第2の検索手段113は、文字列「苦土重焼燐」を受け取ると、ステップS6で、汎用変換パターン記憶部122を検索する。しかし、汎用変換パターン記憶部122にも文字列「苦土重焼燐」に対する読み情報はない。このため、第2の検索手段113は、ステップS7からステップS9へ移行して、文字列「苦土重焼燐」を、特殊変換パターン登録待ち記憶部123に登録する。   As another example, consider a case where the character string “Mado heavy grilled phosphorus” is input to the first search means 112. The operation in this case is shown in FIG. The first search means 112 searches the special conversion pattern storage unit 121 in step S2. However, the special conversion pattern storage unit 121 does not have reading information corresponding to “matter heavy burnt phosphorus”. For this reason, the first search means 112 moves from step S3 to step S5, and passes the character string “Morning heavy burned phosphorus” to the second search means 113. When the second search unit 113 receives the character string “Morning heavy burned phosphorus”, it searches the general-purpose conversion pattern storage unit 122 in step S6. However, the general-purpose conversion pattern storage unit 122 also has no reading information for the character string “Modo heavy burned phosphorus”. For this reason, the second search unit 113 shifts from step S7 to step S9 and registers the character string “Morning heavy burned phosphorus” in the special conversion pattern registration waiting storage unit 123.

メンテナンス手段114は、図3のステップS10で特殊変換パターン登録待ち記憶部123から文字列「苦土重焼燐」を取得し、ステップS11で、読み情報の入力を促す。オペレータが、文字列「苦土重焼燐」に対する読み情報として、「くどじゅうしょうりん」を入力すると、メンテナンス手段114は、特殊変換パターン記憶部121に、文字列「苦土重焼燐」と、その読み情報「くどじゅうしょうりん」とを対応付けて記憶する。入力装置100から、再度、文字列「苦土重焼燐」が入力されたときは、第1の検索手段112は、図2のステップS3で、特殊変換パターン記憶部121に「苦土重焼燐」が存在すると判定する。第1の検索手段112は、ステップS4で、特殊変換パターン記憶部121から「苦土重焼燐」に対応する読み情報を「くどじゅうじょうりん」を取得し、出力装置130に、読み情報「くどじゅうしょうりん」を出力する。   The maintenance means 114 obtains the character string “Morning heavy burned phosphorus” from the special conversion pattern registration waiting storage unit 123 in step S10 of FIG. 3, and prompts input of reading information in step S11. When the operator inputs “Kudojushorin” as the reading information for the character string “Morning heavy burned phosphorus”, the maintenance means 114 stores the character string “Morning heavy burned phosphorus” in the special conversion pattern storage unit 121. The reading information “Kudojushorin” is stored in association with each other. When the character string “Morning heavy burned phosphorus” is input again from the input device 100, the first search means 112 stores “Morning heavy burned in the special conversion pattern storage unit 121 in step S3 of FIG. It is determined that “phosphorus” is present. In step S <b> 4, the first search unit 112 obtains “Kudojyojorin” as the reading information corresponding to “Morning heavy burned phosphorus” from the special conversion pattern storage unit 121, and sends the reading information “ "Kudojushorin" is output.

ここで、特殊変換パターン記憶部121への読み情報の登録では、常に、正しい読み情報が登録されるとは限られず、誤った読み情報が登録されることも考えられる。例えば、文字列「苦土重焼燐」に対して、「くつちじゅうやきりん」が登録されたとする。このような場合は、オペレータは、メンテナンス手段114を用いて、読み情報を修正する。読み情報の修正では、オペレータは、修正対象の文字列「苦土重焼燐」を指定する。メンテナンス手段114は、この文字列「苦土重焼燐」に対して、修正後の読み情報の入力を促す。オペレータが、読み情報「くどじゅうしょうりん」を入力すると、メンテナンス手段114は、特殊変換パターン記憶部121に登録された文字列「苦土重焼燐」に対する読み情報を、新たに入力された読み情報「くどじゅうしょうりん」で上書きする。   Here, when reading information is registered in the special conversion pattern storage unit 121, correct reading information is not always registered, and erroneous reading information may be registered. For example, it is assumed that “Kutuchiju Yakirin” is registered for the character string “Mado heavy grilled phosphorus”. In such a case, the operator uses the maintenance unit 114 to correct the reading information. In the correction of the reading information, the operator designates the character string to be corrected, “Mado heavy burned phosphorus”. The maintenance means 114 prompts the user to input corrected reading information for the character string “Mado heavy burned phosphorus”. When the operator inputs the reading information “Kudojushorin”, the maintenance means 114 reads the reading information for the character string “Mado heavy burned phosphorus” registered in the special conversion pattern storage unit 121 into the newly input reading information. Overwrite with information "Kudojushorin".

また、読み情報の修正では、特殊変換パターン記憶部121に登録された読み情報だけでなく、汎用変換パターン記憶部122に登録された読み情報の修正も可能である。汎用変換パターン記憶部122に登録された読み情報の修正は、例えば、特殊変換パターン記憶部121へ新たな読み情報を追加することで行う。具体的に、汎用変換パターン記憶部122に、文字列「熊本県松橋市」に対して、誤った読み情報「くまもとけんまつばしし」が登録されていた場合を考える。この場合、特殊変換パターン記憶部121に、文字列「熊本県松橋市」、読み情報「くまもとけんまつばせし」を登録する。この場合、入力文字列「熊本県松橋市」に対して、特殊変換パターン記憶部121から読み情報が取得されることになるので、正しい読み情報の出力が可能である。なお、メンテナンス手段114が、汎用変換パターン記憶部122の読み情報を直接に修正する構成も可能である。   Further, in the correction of reading information, not only the reading information registered in the special conversion pattern storage unit 121 but also the reading information registered in the general-purpose conversion pattern storage unit 122 can be corrected. The reading information registered in the general-purpose conversion pattern storage unit 122 is corrected by adding new reading information to the special conversion pattern storage unit 121, for example. Specifically, a case is considered in which incorrect reading information “Kumamoto Kenmatsubashi” is registered in the general-purpose conversion pattern storage unit 122 for the character string “Matsubashi City, Kumamoto Prefecture”. In this case, the character string “Matsubashi City, Kumamoto Prefecture” and the reading information “Kumamoto Ken Matsubashishi” are registered in the special conversion pattern storage unit 121. In this case, reading information is acquired from the special conversion pattern storage unit 121 for the input character string “Matsubashi City, Kumamoto Prefecture”, so that correct reading information can be output. In addition, the structure which the maintenance means 114 corrects the reading information of the general purpose conversion pattern memory | storage part 122 directly is also possible.

上記では、誤った読み情報を正しい読み情報で修正する例を説明したが、メンテナンス手段114を用いて、登録済みの読み情報に加えて、又は、それに代えて、略式読み情報を登録することも可能である。例えば、特殊変換パターン記憶部121に、文字列「東京久留米花卉園芸卸センター」に対応して、読み情報「とうきょうくるめかきえんげいおろしせんたー」が登録されている場合を考える。この読み情報は、誤った読み情報ではないものの、非常に長く、実運用で使用するには不適と考えられる。そこで、メンテナンス手段114を用いて修正作業を行い、略式読み情報「とうきょうくるめ」を登録する。このように、略式読み情報を登録することで、略式読み情報を正式な読み情報と同じレベルで後日活用することができ、活用シーンに応じた読み情報の利用が可能となる。   In the above, an example in which erroneous reading information is corrected with correct reading information has been described. However, in addition to or instead of registered reading information, simplified reading information may be registered using the maintenance unit 114. Is possible. For example, let us consider a case in which the reading information “Tokyo Kurume Kakei Geisho Senta” is registered in the special conversion pattern storage unit 121 in correspondence with the character string “Tokyo Kurume Gardening Center”. Although this reading information is not erroneous reading information, it is very long and is considered unsuitable for practical use. Therefore, correction work is performed using the maintenance means 114, and the simplified reading information “Tokyo Kyurume” is registered. Thus, by registering the simplified reading information, the simplified reading information can be used at a later date at the same level as the formal reading information, and the reading information according to the use scene can be used.

本実施形態では、検索手段111は、入力文字列に対応する読み情報が、特殊変換パターン記憶部121及び汎用変換パターン記憶部122の双方にないときには、当該文字列を、特殊変換パターン登録待ち記憶部123に記憶する。メンテナンス手段114は、特殊変換パターン登録待ち記憶部123に登録された文字列について、読み情報が入力されると、特殊変換パターン記憶部121に、読み情報を登録する。本実施形態では、読み情報が存在しない文字列を、特殊変換パターン登録待ち記憶部123に蓄積していき、メンテナンス手段114を用いて、読み情報が存在しない文字列に対して、一括で、読み情報を登録できる。従って、新規用語が発生するたびに、その都度、補助入力装置を用いて読み情報を入力する場合に比して、読み情報の登録作業を簡易化できる。   In this embodiment, when the reading information corresponding to the input character string is not in both the special conversion pattern storage unit 121 and the general-purpose conversion pattern storage unit 122, the search unit 111 stores the character string in a special conversion pattern registration waiting memory. Store in the unit 123. When the reading information is input to the character string registered in the special conversion pattern registration waiting storage unit 123, the maintenance unit 114 registers the reading information in the special conversion pattern storage unit 121. In this embodiment, character strings for which no reading information exists are accumulated in the special conversion pattern registration waiting storage unit 123, and the maintenance means 114 is used to collectively read character strings for which no reading information exists. Information can be registered. Therefore, each time a new term is generated, the reading information registration operation can be simplified as compared with the case where the reading information is input using the auxiliary input device each time.

なお、上記実施形態では、入力装置100にFDD等の入力装置を用いる例について説明したが、入力装置は、これには限定されない。例えば、キーボード等の入力装置を用いることもできる。この場合は、ユーザがキーボードを用いて入力した文字列のうちで、特殊変換パターン記憶部121にも、汎用変換パターン記憶部122にも記憶されていない未登録の文字列が、特殊変換パターン登録待ち記憶部123に記憶されることになる。その後は、上記実施形態と同様な動作により、特殊変換パターン登録待ち記憶部123に登録された文字列について、読み情報を入力し、特殊変換パターン記憶部121への読み情報の登録を行えばよい。入力装置100として、音声認識機能付きの音声入力装置を用いることも可能である。   In the above embodiment, an example in which an input device such as an FDD is used as the input device 100 has been described. However, the input device is not limited to this. For example, an input device such as a keyboard can be used. In this case, among the character strings input by the user using the keyboard, an unregistered character string that is not stored in the special conversion pattern storage unit 121 or the general-purpose conversion pattern storage unit 122 is registered as a special conversion pattern. It is stored in the waiting storage unit 123. After that, it is only necessary to input reading information for the character string registered in the special conversion pattern registration waiting storage unit 123 and register the reading information in the special conversion pattern storage unit 121 by the same operation as in the above embodiment. . As the input device 100, a voice input device with a voice recognition function can also be used.

以上、本発明をその好適な実施形態に基づいて説明したが、本発明の辞書メンテナンスシステム、方法、及び、プログラムは、上記実施形態にのみ限定されるものではなく、上記実施形態の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。   Although the present invention has been described based on the preferred embodiment, the dictionary maintenance system, method, and program of the present invention are not limited to the above embodiment, and various configurations are possible from the configuration of the above embodiment. Those modified and changed as described above are also included in the scope of the present invention.

本発明は、音声システム用辞書データ整備の省力化といった用途に適用できる。また、人名、住所を変換対象とすることで、名寄せシステム機能といった用途にも適用可能である。   The present invention can be applied to uses such as labor saving of dictionary data maintenance for voice systems. In addition, by using a person name and an address as conversion targets, it can also be applied to uses such as a name identification system function.

本発明の一実施形態の辞書メンテナンスシステムを示すブロック図。The block diagram which shows the dictionary maintenance system of one Embodiment of this invention. 特殊変換パターン登録待ち記憶部への登録の際の動作手順を示すフローチャート。The flowchart which shows the operation | movement procedure at the time of registration to the special conversion pattern registration waiting storage part. 特殊変換パターン記憶部への登録の際の動作手順を示すフローチャート。The flowchart which shows the operation | movement procedure at the time of registration to a special conversion pattern memory | storage part. 検索の一例を示すブロック図。The block diagram which shows an example of a search. 文字列入力から特殊変換パターンへの登録までの流れ示すブロック図。The block diagram which shows the flow from a character string input to registration to a special conversion pattern.

符号の説明Explanation of symbols

100:入力装置
110:データ処理装置
111:検索手段
112:第1の検索手段
113:第2の検索手段
114:メンテナンス手段
120:記憶装置
121:特殊変換パターン記憶部
122:汎用変換パターン記憶部
123:特殊変換パターン登録待ち記憶部
130:出力装置
100: input device 110: data processing device 111: search means 112: first search means 113: second search means 114: maintenance means 120: storage device 121: special conversion pattern storage unit 122: general-purpose conversion pattern storage unit 123 : Special conversion pattern registration waiting storage unit 130: Output device

Claims (6)

文字列と読み情報とを対応付けて記憶する第1の変換パターン記憶部と、
前記文字列と前記第1の変換パターン記憶部に記憶された読み情報と異なる読み情報とを対応付けて記憶する第2の変換パターン記憶部と、
入力された文字列が、前記第1の変換パターン記憶部と前記第2の変換パターン記憶部に記憶されていない場合に、入力された前記文字列を登録待ち記憶部に記憶する検索手段と、
前記登録待ち記憶部に記憶された文字列と当該文字列に対して入力された読み情報とを対応付けて前記第1の変換パターン記憶部に登録するメンテナンス手段とを備える辞書メンテナンスシステム。
A first conversion pattern storage unit that stores character strings and reading information in association with each other;
A second conversion pattern storage unit that stores the character string and the reading information different from the reading information stored in the first conversion pattern storage unit in association with each other;
Search means for storing the input character string in a registration waiting storage unit when the input character string is not stored in the first conversion pattern storage unit and the second conversion pattern storage unit;
A dictionary maintenance system comprising: maintenance means for associating a character string stored in the waiting-for-registration storage unit with reading information input to the character string and registering it in the first conversion pattern storage unit.
前記メンテナンス手段は、前記読み情報に代えて、又は、これに加えて、前記第1の変換パターン記憶部に、略式読み情報を登録する、請求項1に記載の辞書メンテナンスシステム。   2. The dictionary maintenance system according to claim 1, wherein the maintenance unit registers summary reading information in the first conversion pattern storage unit instead of or in addition to the reading information. 前記メンテナンス手段は、前記登録待ち記憶部から、該登録待ち記憶部に記憶された文字列を取得し、該取得した文字列のリストをユーザに提示して、前記読み情報の入力を促す、請求項1又は2に記載の辞書メンテナンスシステム。   The maintenance means acquires a character string stored in the registration waiting storage unit from the registration waiting storage unit, presents a list of the acquired character strings to a user, and prompts the user to input the reading information. Item 3. The dictionary maintenance system according to item 1 or 2. 前記第2の変換パターン記憶部は、一般的な読み情報を記憶する汎用変換パターン記憶部であり、前記第1の変換パターン記憶部は、特殊な読み情報を記憶する特殊変換パターン記憶部である、請求項1〜3の何れか一に記載の辞書メンテナンスシステム。   The second conversion pattern storage unit is a general-purpose conversion pattern storage unit that stores general reading information, and the first conversion pattern storage unit is a special conversion pattern storage unit that stores special reading information. The dictionary maintenance system according to any one of claims 1 to 3. コンピュータを用いて、文字列に対して読み情報を登録する辞書メンテナンス方法であって、
前記コンピュータが、入力された文字列が、文字列と読み情報とを対応付けて記憶する第1の変換パターン記憶部、及び、前記文字列と前記第1の変換パターン記憶部に記憶された読み情報と異なる読み情報とを対応付けて記憶する第2の変換パターン記憶部の少なくとも一方に記憶されているか否かを判断するステップと、
前記コンピュータが、入力された前記文字列が前記第1の変換パターン記憶部及び前記第2の変換パターン記憶部に記憶されていないと判断すると、入力された前記文字列を登録待ち記憶部に記憶するステップと、
前記コンピュータが、前記登録待ち記憶部に記憶された文字列と当該文字列に対して入力された読み情報とを対応付けて前記第1の変換パターン記憶部に登録するステップとを有する辞書メンテナンス方法。
A dictionary maintenance method for registering reading information for a character string using a computer,
A first conversion pattern storage unit in which the computer stores an input character string in association with a character string and reading information; and a reading stored in the character string and the first conversion pattern storage unit. Determining whether or not the information is stored in at least one of the second conversion pattern storage units that stores information and different reading information in association with each other;
When the computer determines that the input character string is not stored in the first conversion pattern storage unit and the second conversion pattern storage unit, the input character string is stored in the registration waiting storage unit. And steps to
A dictionary maintenance method comprising: a step of registering, in the first conversion pattern storage unit, the character string stored in the registration waiting storage unit and the reading information input to the character string in association with the computer .
コンピュータに、文字列に対して読み情報を登録する処理を実行させるプログラムであって、前記コンピュータに、
入力された文字列が、文字列と読み情報とを対応付けて記憶する第1の変換パターン記憶部、及び、前記文字列と前記第1の変換パターン記憶部に記憶された読み情報と異なる読み情報とを対応付けて記憶する第2の変換パターン記憶部の少なくとも一方に記憶されているか否かを判断する処理と、
入力された前記文字列が前記第1の変換パターン記憶部及び前記第2の変換パターン記憶部に記憶されていないと判断すると、入力された前記文字列を登録待ち記憶部に記憶する処理と、
前記登録待ち記憶部に記憶された文字列と当該文字列に対して入力された読み情報とを対応付けて前記第1の変換パターン記憶部に登録する処理とを実行させるプログラム。
A program for causing a computer to execute processing for registering reading information for a character string,
A first conversion pattern storage unit that stores the character string and the reading information in association with each other, and the input character string is different from the reading information stored in the character string and the first conversion pattern storage unit. A process of determining whether or not the information is stored in at least one of the second conversion pattern storage units that stores information in association with each other
When it is determined that the input character string is not stored in the first conversion pattern storage unit and the second conversion pattern storage unit, a process of storing the input character string in a registration waiting storage unit;
A program for executing a process of associating a character string stored in the waiting-for-registration storage unit with reading information input to the character string and registering it in the first conversion pattern storage unit.
JP2008092012A 2008-03-31 2008-03-31 Dictionary maintenance system and method, and program Pending JP2009245235A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008092012A JP2009245235A (en) 2008-03-31 2008-03-31 Dictionary maintenance system and method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008092012A JP2009245235A (en) 2008-03-31 2008-03-31 Dictionary maintenance system and method, and program

Publications (1)

Publication Number Publication Date
JP2009245235A true JP2009245235A (en) 2009-10-22

Family

ID=41307036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008092012A Pending JP2009245235A (en) 2008-03-31 2008-03-31 Dictionary maintenance system and method, and program

Country Status (1)

Country Link
JP (1) JP2009245235A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244491A (en) * 1994-03-03 1995-09-19 Oki Electric Ind Co Ltd Conversion system for text sound

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244491A (en) * 1994-03-03 1995-09-19 Oki Electric Ind Co Ltd Conversion system for text sound

Similar Documents

Publication Publication Date Title
CN111786814A (en) Log processing method and device
US20150193459A1 (en) Data file searching method
JP5091549B2 (en) Document data processing device
JP2009245235A (en) Dictionary maintenance system and method, and program
CN111143374B (en) Data auxiliary identification method, system, computing device and storage medium
US20040054677A1 (en) Method for processing text in a computer and a computer
JP2011065597A (en) Device and data searching, and program
JP2011221662A (en) Dictionary editing apparatus and program
JP4521413B2 (en) Database management system and program
JPWO2009038209A1 (en) Machine translation system, machine translation method, and machine translation program
JP4847210B2 (en) Input conversion learning program, input conversion learning method, and input conversion learning device
JP2001109740A (en) Device and method for preparing chinese document
JP2010134766A (en) Document data processing apparatus and program thereof
JP2007199987A (en) Patent information retrieval system
JP2006215679A (en) Information processor, information processing method, and recording medium
JP4139805B2 (en) Apparatus, method and program for converting lexical data to data
JP2003177923A (en) Reserved word converting method for porting support system
JP2003006190A (en) Device, method and program for preparing dictionary, device, method and program for automatic translation, computer-readable recording medium with dictionary preparation program recorded thereon, computer readable recording medium with automatic translation program recorded thereon and preparation of translation sentence
JP2009122866A (en) Electronic file storage device and electronic file storage method
JPH1055360A (en) Device and method for address book processing
JPH0944495A (en) Spell check device
JP5344649B2 (en) Character string conversion apparatus, character string conversion method, program, and recording medium
JP2008158738A (en) Input address information correction system
JP5337516B2 (en) Document processing apparatus and program
JPH10198671A (en) Address book managing device and postal code converting method

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100225

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111027

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111115