JP2013041421A - Input character string error detection device - Google Patents

Input character string error detection device Download PDF

Info

Publication number
JP2013041421A
JP2013041421A JP2011177900A JP2011177900A JP2013041421A JP 2013041421 A JP2013041421 A JP 2013041421A JP 2011177900 A JP2011177900 A JP 2011177900A JP 2011177900 A JP2011177900 A JP 2011177900A JP 2013041421 A JP2013041421 A JP 2013041421A
Authority
JP
Japan
Prior art keywords
character string
input character
notation
input
confirmation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011177900A
Other languages
Japanese (ja)
Inventor
Reishi Kondou
玲史 近藤
Shinichi Ando
真一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011177900A priority Critical patent/JP2013041421A/en
Publication of JP2013041421A publication Critical patent/JP2013041421A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide an input character string error detection device that detects an error of an input character string and does not perform unnecessary error detection on an input character string with no errors fewer errors.SOLUTION: A correct notation determination part 2 determines whether an input KATAKANA (square form of Japanese syllabary) character string includes a specific character. A confirmation candidate extraction part 3 extracts the specific character from the KATAKANA character string only when the correct notation determination part 2 determines that the specific character is not included therein. A confirmation candidate presentation part 4 mutually associates the input KATAKANA character string with the place extracted by the confirmation candidate extraction part 3 and presents it to a user.

Description

本発明は、入力文字列の誤りを検出する入力文字列誤り検出装置に関する。   The present invention relates to an input character string error detection device that detects an error in an input character string.

入力文字列の誤りを検出するということは、様々な場合に行われる。例えば、カナ文字から構成される日本語テキストを入力して読み上げる音声合成装置用の辞書を作成する場合に必要になる。音声合成装置用の辞書としては、入力カナ文字列を読み上げたときに正しく聞こえるように誤った文字列を正解文字列に修正した読み上げ文字辞書や、誤ったカナ文字列と正解文字列との対応を取る対応関係辞書などがある。これらの辞書を作成する場合には、入力カナ文字列中に存在する誤りを検出することが必要になる。なお、カナ文字から構成される日本語テキストは、例えば、コンピュータで漢字を扱えなかった時代に作成された台帳の正本であり、この正本を基に作成された台帳の写しと照合する場合に、音声合成装置に入力され、読み上げられる。   Detecting an error in the input character string is performed in various cases. For example, it is necessary when creating a dictionary for a speech synthesizer that inputs and reads Japanese text composed of kana characters. As a dictionary for the speech synthesizer, a spoken character dictionary in which an incorrect character string is corrected to a correct character string so that it can be heard correctly when the input kana character string is read, and correspondence between an incorrect kana character string and a correct character string There is a correspondence dictionary and so on. When these dictionaries are created, it is necessary to detect errors existing in the input kana character string. In addition, Japanese text composed of kana characters is a copy of a ledger created when, for example, a computer was unable to handle kanji, and when checking against a copy of a ledger created based on this copy, It is input to the speech synthesizer and read out.

入力文字列の誤りを検出する技術としては、次のような技術が知られている(例えば、特許文献1参照)。この特許文献1に記載されている技術では、入力された日本語文字列からカタカナ文字列を抽出し、抽出したカタカナ文字列が日本語辞書に載っているか否かを調べる。そして、日本語辞書に載っていない未知語である場合は、そのカタカナ文字列に誤りがあると判断し、ユーザに提示する。   As a technique for detecting an error in an input character string, the following technique is known (see, for example, Patent Document 1). In the technique described in Patent Document 1, a katakana character string is extracted from an input Japanese character string, and it is checked whether or not the extracted katakana character string is listed in a Japanese dictionary. If it is an unknown word not included in the Japanese dictionary, it is determined that there is an error in the katakana character string and presented to the user.

特開平3−242755号公報JP-A-3-242755

特許文献1に記載されている技術は、日本語文字列から抽出したカタカナ文字列を対象にして常に誤り検出を行っているため、誤りの無い或いは誤りの少ないカタカナ文字列に対して、無駄に誤り検出が行われてしまうという問題がある。   Since the technique described in Patent Document 1 always performs error detection on a katakana character string extracted from a Japanese character string, it is useless for a katakana character string with no errors or few errors. There is a problem that error detection is performed.

なお、入力カナ文字列に存在する誤りとしては、次のような誤りがある。   The following errors exist in the input kana character string.

(a)長音が考慮されていない (「トーキョー」と発声したいものを「トウキョウ」と記述するなど)
(b)拗音の書き方の不正 (「キョ」と発声したいものを「キヨ」と記述するなど)
(c)促音の書き方の不正 (「ハットリ」と発声したいものを「ハツトリ」と記述するなど)
(d)濁音・半濁音の書き方の不正 (濁点、半濁点が記述されていないなど)
(e)単かな文字の読みの曖昧性 (「エ」と発声したいものを平仮名「へ」で記述するなど)
(a) Long sounds are not taken into account (for example, “Tokyo” is used to describe what you want to say “Tokyo”)
(b) Improper writing of stuttering (such as writing “Kyo” for what you want to say “Kyo”)
(c) Improper way of writing sound (for example, “hattori” is used to describe what you want to say)
(d) Improper way of writing muddy / semi-voiced sound
(e) Ambiguity in reading simple characters (such as writing what you want to say "Hi" in Hiragana "he")

[発明の目的]
そこで、本発明の目的は、誤りの無い或いは誤りの少ない入力文字列に対して、無駄に誤り検出が行われてしまうことがあるという問題を解決した入力文字列誤り検出装置を提供することにある。
[Object of the invention]
SUMMARY OF THE INVENTION An object of the present invention is to provide an input character string error detection apparatus that solves the problem that an error detection may be performed unnecessarily for an input character string having no error or few errors. is there.

本発明にかかる第1の入力文字列誤り検出装置は、
入力文字列に特定の文字が含まれているか否かを判定する判定手段と、
前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段とを備える。
The first input character string error detection device according to the present invention is:
Determining means for determining whether or not a specific character is included in the input character string;
Only when the determination unit determines that the specific character is not included in the input character string, the detection unit includes a detection unit that detects a location where the specific character is missing from the input character string. .

本発明にかかる入力文字列誤り検出方法は、
判定手段と、検出手段とを備えたコンピュータが実行する入力文字列誤り検出方法であって、
前記判定手段が、入力文字列に特定の文字が含まれているか否かを判定し、
前記検出手段が、前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する。
An input character string error detection method according to the present invention includes:
An input character string error detection method executed by a computer including a determination unit and a detection unit,
The determination means determines whether or not the input character string includes a specific character;
Only when the determination means determines that the specific character is not included in the input character string, the detection means detects a location where the specific character is missing from the input character string. .

本発明にかかるプログラムは、
コンピュータを入力文字列誤り検出装置として機能させるためのプログラムであって、
前記コンピュータを、
入力文字列に特定の文字が含まれているか否かを判定する判定手段、
前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段として機能させる。
The program according to the present invention is:
A program for causing a computer to function as an input character string error detection device,
The computer,
Determination means for determining whether or not a specific character is included in the input character string;
Only when the determination unit determines that the specific character is not included in the input character string, the input character string functions as a detection unit that detects a portion where the specific character is missing from the input character string. .

本発明によれば、誤りの無い或いは少ない入力文字列に対して無駄に誤り検出が行われないようにすることができる。   According to the present invention, error detection can be prevented from being performed unnecessarily for an input character string having no or few errors.

本発明の第1の実施の形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of the 1st Embodiment of this invention. 正解表記判定部2の処理例を示すフローチャートである。It is a flowchart which shows the process example of the correct notation determination part 2. FIG. 確認候補抽出部3の処理例を示すフローチャートである。5 is a flowchart illustrating a processing example of a confirmation candidate extraction unit 3. 確認候補提示部4の動作の一例を説明するための図である。FIG. 10 is a diagram for explaining an example of an operation of a confirmation candidate presenting unit 4. 確認候補提示部4の動作の他の例を説明するための図である。10 is a diagram for explaining another example of the operation of the confirmation candidate presenting unit 4. FIG. 本発明の第2の実施の形態を説明するための図である。It is a figure for demonstrating the 2nd Embodiment of this invention. 本発明の第3の実施の形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of the 3rd Embodiment of this invention.

次に、図面を参照して本発明の実施の形態について詳細に説明する。   Next, embodiments of the present invention will be described in detail with reference to the drawings.

[本発明の第1の実施の形態]
図1を参照すると、本発明にかかる入力文字列誤り検出装置の第1の実施の形態は、カナ文字列入力部1と、正解表記判定部2と、確認候補抽出部3と、確認候補提示部4と、正解表記判定ルール記憶部51および確認候補抽出ルール記憶部52を含む記憶装置5とを備えている。
[First embodiment of the present invention]
Referring to FIG. 1, a first embodiment of an input character string error detection device according to the present invention is a kana character string input unit 1, a correct answer notation determination unit 2, a confirmation candidate extraction unit 3, and a confirmation candidate presentation. And a storage device 5 including a correct notation determination rule storage unit 51 and a confirmation candidate extraction rule storage unit 52.

カナ文字列入力部1は、図示を省略した辞書やデータベースからカナ文字列を入力する機能を有する。ここで、カナ文字列は、平仮名または片仮名で構成された文字列であり、文字コードにより全角、半角のバリエーションも含む。なお、本実施の形態では、カナ文字列入力部1は、カナ文字列を予め定められた入力単位(例えば、用語や単語単位)で入力する。   The kana character string input unit 1 has a function of inputting a kana character string from a dictionary or database (not shown). Here, the kana character string is a character string composed of hiragana or katakana and includes full-width and half-width variations depending on the character code. In the present embodiment, the kana character string input unit 1 inputs a kana character string in a predetermined input unit (for example, a term or a word unit).

正解表記判定ルール記憶部51には、カナ文字列入力部1から入力されたカナ文字列に各表記種別についての正解表記が含まれているか否かを判定するための正解表記判定ルールが記録されている。より具体的には、表記種別毎に予め定められている特定の文字が入力カナ文字列に含まれていたら、その表記種別についての正解表記が上記カナ文字列に含まれていると判定し、そうでない場合は、その表記種別についての正解表記が上記カナ文字列に含まれていないと判定するという正解表記判定ルールが記録されている。なお、本実施の形態では、表記種別「長音、拗音、促音、および、濁音・半濁音」についての正解表記判定ルールが正解表記判定ルール記憶部51に記録されている。   In the correct notation determination rule storage unit 51, correct answer notation determination rules for determining whether or not the correct answer notation for each notation type is included in the kana character string input from the kana character string input unit 1 are recorded. ing. More specifically, if a specific character predetermined for each notation type is included in the input kana character string, it is determined that the correct notation for the notation type is included in the kana character string, Otherwise, a correct notation determination rule for determining that the correct answer notation for the notation type is not included in the kana character string is recorded. In the present embodiment, the correct notation determination rule for the notation type “long sound, stuttering, prompting sound, and muddy / semi-voiced sound” is recorded in the correct notation determination rule storage unit 51.

確認候補抽出ルール記憶部52には、表記種別毎に、その表記種別で表記すべきか否かをユーザに確認させる文字の組み合わせまたは文字からなる確認候補を、入力されたカナ文字列から抽出するための確認候補抽出ルールが記録されている。別の言い方をすれば、確認候補抽出ルール記憶部52には、表記種別毎に、その表記種別について定められている特定の文字が欠落している箇所を入力カナ文字列から検出するためのルールが記録されている。なお、本実施の形態では、表記種別「長音、拗音、促音、および、濁音・半濁音」についての確認候補抽出ルールが確認候補抽出ルール記憶部52に記録されている。   In the confirmation candidate extraction rule storage unit 52, for each notation type, to extract from the input kana character string a confirmation candidate consisting of a combination of characters or characters that allows the user to confirm whether or not to indicate the notation type. The confirmation candidate extraction rule is recorded. In other words, in the confirmation candidate extraction rule storage unit 52, for each notation type, a rule for detecting from the input kana character string a location where a specific character defined for the notation type is missing. Is recorded. In this embodiment, the confirmation candidate extraction rule for the notation type “long sound, stuttering, prompting sound, and muddy / semi-voiced sound” is recorded in the confirmation candidate extraction rule storage unit 52.

正解表記判定部2は、正解表記判定ルールに従って、入力されたカナ文字列に正解表記が存在するか否かを、表記種別毎に判定する機能を有する。更に、正解表記判定部2は、カナ文字列に正解表記が含まれていない表記種別が存在する場合は、その表記種別についての誤表記が上記カナ文字列に含まれている可能性があると判断し、上記表記種別を示す情報と上記カナ文字列とを確認候補抽出部3に渡す機能を有する。なお、カナ文字列に正解表記が含まれている表記種別については、上記カナ文字列の作成時(辞書やデータベースへの記録時)に正しい表記が考慮されており、誤表記の可能性はないと判断し、確認候補抽出部3へ表記種別を通知する処理は行わない。また、上記カナ文字列に全ての表記種別についての正解表記が含まれている場合は、確認候補抽出部3にカナ文字列を渡すことなく、直ちにそのカナ文字についての処理を終了する。   The correct notation determination unit 2 has a function of determining, for each notation type, whether or not there is a correct notation in the input kana character string according to the correct notation determination rule. Furthermore, when there is a notation type that does not include the correct answer notation in the kana character string, the correct answer notifying determination unit 2 may include an error notation regarding the notation type in the kana character string. It has a function of judging and passing the information indicating the notation type and the kana character string to the confirmation candidate extraction unit 3. In addition, as for the notation type in which the correct answer notation is included in the kana character string, the correct notation is considered when creating the above kana character string (when recording in the dictionary or database), and there is no possibility of incorrect notation Therefore, the process for notifying the confirmation candidate extraction unit 3 of the notation type is not performed. If the kana character string includes correct notations for all the notation types, the kana character processing is immediately terminated without passing the kana character string to the confirmation candidate extraction unit 3.

確認候補抽出部3は、確認候補抽出ルールに従って、正解表記判定部2から渡されたカナ文字列より、正解表記判定部2から渡された表記種別についての確認候補を抽出し、抽出結果(例えば、抽出位置)と上記カナ文字列とを確認候補提示部4に渡す機能を有する。   The confirmation candidate extraction unit 3 extracts a confirmation candidate for the notation type passed from the correct notation determination unit 2 from the kana character string passed from the correct notation determination unit 2 according to the confirmation candidate extraction rule, and the extraction result (for example, , Extraction position) and the kana character string are passed to the confirmation candidate presentation unit 4.

確認候補提示部4は、確認候補抽出部3から渡されたカナ文字列および抽出結果に基づいて、図示を省略した表示部に表示する等して、カナ文字列と、カナ文字列中に確認候補とをユーザに提示する機能を有する。   The confirmation candidate presenting unit 4 confirms the kana character string and the kana character string by displaying them on a display unit (not shown) based on the kana character string and the extraction result passed from the confirmation candidate extracting unit 3. It has a function of presenting candidates to the user.

このような機能を有する入力文字列誤り検出装置は、コンピュータにより実現することができる。コンピュータによって実現する場合は、コンピュータを入力文字列誤り検出装置として機能させるためのプログラムを記録したディスク、半導体メモリ、その他の記録媒体を用意し、コンピュータに上記プログラムを読み取らせる。コンピュータは、読み取ったプログラムに従って自身の動作を制御することにより、自コンピュータ上にカナ文字列入力部1、正解表記判定部2、確認候補抽出部3および確認候補提示部4を実現する。   The input character string error detection device having such a function can be realized by a computer. When realized by a computer, a disk, a semiconductor memory, and other recording media on which a program for causing the computer to function as an input character string error detecting device is prepared are prepared, and the computer is caused to read the program. The computer controls its own operation according to the read program, thereby realizing a kana character string input unit 1, a correct notation determination unit 2, a confirmation candidate extraction unit 3, and a confirmation candidate presentation unit 4 on the computer.

次に、本実施の形態の動作について詳細に説明する。なお、以下の説明では、各ルールを片仮名で統一して説明するが、平仮名でも同様であり、また、片仮名と平仮名は同一視しても良い。   Next, the operation of the present embodiment will be described in detail. In the following description, each rule is explained by unifying katakana, but the same applies to hiragana, and katakana and hiragana may be regarded as the same.

カナ文字列入力部1は、図示を省略したデータベースや電子的な辞書からカナ文字列を入力する。本実施の形態では、カナ文字列入力部1は、用語単位でカナ文字列を入力する。   The kana character string input unit 1 inputs a kana character string from a database or an electronic dictionary (not shown). In the present embodiment, the kana character string input unit 1 inputs a kana character string in terms of terms.

正解表記判定部2は、カナ文字列入力部1からカナ文字列が入力される毎に、図2のフローチャートに示す処理を実行する。先ず、正解表記判定部2は、正解表記判定ルール記憶部51に記録されている正解表記判定ルールに従って、入力されたカナ文字列に長音表記が含まれているか否かを判定する(ステップS201)。   The correct answer notation determination unit 2 executes the process shown in the flowchart of FIG. 2 every time a kana character string is input from the kana character string input unit 1. First, the correct notation determination unit 2 determines whether or not the input kana character string includes a long sound notation according to the correct notation determination rule recorded in the correct notation determination rule storage unit 51 (step S201). .

ここで、長音表記に関する正解表記判定ルール(正解表記判定ルール1と記す場合もある)は、カナ文字列中に長音文字「ー」が1個以上含まれている場合は、正解表記が含まれていると判断し、そうでない場合は、正解表記が含まれていないと判断するというものである。なお、長音文字を単独で判定する代わりに、「アー」「イー」など、あり得るカナ文字と長音文字との組を用意して、それらの何れかが含まれるか否かを判定するルールを採用することも可能である。また用途によっては、半角長音記号、チルダ記号「〜」、ハイフン文字「‐」等を長音文字と同一視して判定するルールを採用しても良い。   Here, the correct notation determination rule for long sound notation (sometimes referred to as correct answer determination rule 1) includes correct notation when one or more long sound characters “-” are included in the kana character string. If not, it is determined that the correct answer notation is not included. In addition, instead of determining a long sound character alone, a set of possible kana characters and long sound characters such as “A” and “E” is prepared, and a rule for determining whether or not any of them is included. It is also possible to adopt. Depending on the application, a rule may be adopted in which half-width long sound symbols, tilde symbols “˜”, hyphen characters “-”, etc. are identified as long sound characters.

そして、長音表記が含まれていない場合(ステップS201がNo)は、長音表記についての誤表記が含まれている可能性があると判断し、記憶装置5などに誤表記が含まれている可能性がある表記種別として「長音表記」を記録し(ステップS202)、その後、正解表記判定ルールに従って入力カナ文字列に拗音表記が含まれているか否かを判定する(ステップS203)。これに対して、長音表記が含まれている場合(ステップS201がYes)は、長音表記については誤表記が含まれている可能性が低いと判断し、正解表記判定ルールに従って、次の判定項目である拗音表記が入力カナ文字列に含まれているか否かを判定する(ステップS203)。   If the long sound notation is not included (No in step S201), it is determined that there is a possibility that the long sound notation is erroneously included, and the storage device 5 or the like may include an erroneous notation. “Long sound notation” is recorded as a characteristic notation type (step S202), and then it is determined whether or not stuttering notation is included in the input kana character string according to the correct notation determination rule (step S203). On the other hand, when the long sound notation is included (step S201 is Yes), it is determined that there is a low possibility that the long sound notation includes an incorrect notation, and the next determination item is determined according to the correct notation determination rule. It is determined whether the stuttering notation is included in the input kana character string (step S203).

ここで、拗音表記に関する正解表記判定ルール(正解表記判定ルール2と記す場合もある)は、カナ文字列中に、拗音文字「ャ」「ュ」「ョ」「ヮ」の何れかを含む場合は、正解表記が含まれ、そうでない場合は、正解表記が含まれていないと判定するものである。なお、拗音文字を単独で判断する代わりに、あり得る拗音表記の組を用意して、それらの何れかが含まれるかを判定するルールを採用することもできる。この場合は例えば、「キャ」「ジュ」「クヮ」は拗音表記であると判定するが、「アョ」「キヮ」は拗音表記ではないと判定するルールを用いても良い。   Here, the correct answer notation determination rule related to stuttering notation (sometimes referred to as correct answer notifying determination rule 2) includes any one of stuttering characters “a”, “yu”, “yo”, and “ヮ” in the kana character string. Is determined to include the correct answer notation, otherwise, the correct answer notation is not included. Instead of judging the roaring character alone, it is also possible to prepare a set of possible roaring notation and adopt a rule for judging whether any of them is included. In this case, for example, it may be determined that “ca”, “ju”, and “ku” are in stuttering, but “yo” and “key” are not in stuttering.

そして、ステップS203で入力カナ文字列に拗音表記が含まれていないと判定した場合は、拗音表記についての誤表記が含まれている可能性があると判断し、記憶装置5などに誤表記が含まれている可能性がある表記種別として「拗音表記」を記録し(ステップS204)、その後、正解表記判定ルールに従って入力カナ文字列に促音表記が含まれているか否かを判定する(ステップS205)。これに対して、拗音表記を含む場合(ステップS203がYes)は、拗音表記については誤表記が含まれている可能性が低いと判定し、促音表記を含むか否かを判定する(ステップS205)。   If it is determined in step S203 that the input kana character string does not include the stuttering notation, it is determined that there is a possibility that the stuttering notation is included, and the storage device 5 or the like has an incorrect notation. “Stuttering notation” is recorded as the notation type that may be included (step S204), and then it is determined whether or not the input kana character string includes a prompt sound notation according to the correct notation determination rule (step S205). ). On the other hand, when the stuttering notation is included (Yes in step S203), it is determined that there is a low possibility that the stuttering notation is included, and it is determined whether or not the prompting notation is included (step S205). ).

ここで、促音表記についての正解表記判定ルール(正解表記判定ルール3と記す場合もある)は、促音文字「ッ」を1個以上含む場合は、正解表記が含まれ、そうでない場合は、正解表記が含まれていないと判定するものである。なお、促音文字を単独で判定する代わりに、あり得る促音表記の組を用意して、それらの何れかが含まれるかを判定するルールを採用しても良い。この場合は例えば、「アッ」「ギャッ」は長音表記であると判定するが、「ッッ」は長音表記でないと判定する。   Here, the correct notation determination rule (sometimes referred to as correct answer determination rule 3) for the prompt sound notation includes the correct answer notation if it includes one or more prompt sound characters “tsu”, otherwise it is the correct answer. It is determined that the notation is not included. Instead of determining the prompting characters alone, a set of possible prompting notations may be prepared and a rule for determining whether any of them is included may be adopted. In this case, for example, “A” and “GA” are determined to be in long sound notation, but “A” is determined not to be in long sound.

そして、入力カナ文字列に促音表記が含まれていない場合(ステップS205がNo)は、促音表記についての誤表記が含まれている可能性があると判断し、記憶装置5などに誤表記が含まれている可能性がある表記種別として「促音表記」を記録し(ステップS206)、その後、正解表記判定ルールに従って入力カナ文字列に濁音・半濁音表記が含まれているか否かを判定する(ステップS207)。これに対して、促音表記が含まれている場合(ステップS205がYes)は、促音表記については誤表記が含まれている可能性が低いと判断し、次の判定項目である濁音・半濁音が入力カナ文字列に含まれているか否かを判定する(ステップS207)。   If the input kana character string does not include a prompting notation (No in step S205), it is determined that there is a possibility that the prompting notation is erroneously included, and the storage device 5 or the like has an incorrect notation. “Sound prompt notation” is recorded as a notation type that may be included (step S206), and then it is determined whether or not the input kana character string includes muddy / semi-voiced notation according to the correct answer notation determination rule. (Step S207). On the other hand, when the prompt sound notation is included (Yes in step S205), it is determined that there is a low possibility that the prompt sound notation includes an incorrect notation, and the next determination item is the muddy / semi-voiced sound. Is included in the input kana character string (step S207).

ここで、濁音・半濁音についての正解表記判定ルール(正解表記判定ルール4と記す場合もある)は、カナ文字列中に、濁音または半濁音を構成する文字を1個以上含む場合は、正解表記が含まれ、そうでない場合は、正解表記が含まれていないと判定するものである。なお、濁音を構成する文字とは、「ガ」「ザ」「ダ」「バ」行のカナ文字である。半濁音を構成する文字とは、「パ」行のカナ文字である。ここに濁音文字「゛」および半濁音文字「゜」を含めても良い。この場合は、それらの文字に先行する文字との組み合わせた文字列が濁音または半濁音を構成する文字列であることを確認するルールを採用しても良い。この場合は例えば、「タ゛」は濁音表記文字列であると判定するが、「ア゛」は濁音表記文字列でないと判定する。   Here, the correct answer notation judgment rule (sometimes referred to as the correct answer notation judgment rule 4) for the muddy / semi-voiced sound is correct when the kana character string includes one or more characters constituting the muddy or semi-voiced sound. If notation is included, otherwise, it is determined that the correct answer notation is not included. The characters constituting the muddy sound are kana characters in the “Ga”, “The”, “Da”, and “B” lines. The characters composing the semi-voiced sound are kana characters in the “pa” line. The muddy character “” and the semi-voiced character “°” may be included here. In this case, you may employ | adopt the rule which confirms that the character string combined with the character preceding those characters is a character string which comprises a muddy sound or a semi-voiced sound. In this case, for example, “D” is determined to be a muffled sound notation character string, but “A” is determined not to be a muddy sound notation character string.

そして、入力カナ文字列に濁音・半濁音表記が含まれていない場合(ステップS207がNo)は、濁音・半濁音表記についての誤表記が含まれている可能性があると判断し、記憶装置5などに誤表記が含まれている可能性がある表記種別として「濁音・半濁音」を記録し(ステップS208)、その後、ステップS209の処理を行う。これに対して入力カナ文字列に濁音・半濁音表記が含まれている場合(ステップS207がYes)は、濁音・半濁音については誤表記が含まれている可能性が低いと判断し、ステップS209の処理を行う。   If the input kana character string does not include the muddy / semi-voiced notation (No in step S207), it is determined that there is a possibility that a mis-sound / semi-voiced notation is included, and the storage device “Muddy / semi-voiced sound” is recorded as a notation type that may include an erroneous notation in 5 (step S208), and then the process of step S209 is performed. On the other hand, if the input kana character string includes a muddy / semi-voiced sound (Yes in step S207), it is determined that there is a low possibility that the muddy / semi-voiced sound contains an erroneous notation. The process of S209 is performed.

ステップS209において、正解表記判定部2は、記憶装置5を参照し、誤表記が含まれている可能性がある表記種別が記録されているか否かを調べる。そして、記録されていない場合(ステップS209がNo)は、その処理を終了する。これに対して、記録されている場合(ステップS209がYes)は、記録されている表記種別と、カナ文字列入力部1から入力されたカナ文字列とを確認候補抽出部3に渡し(ステップS210)、その後、記憶装置5に記録されている表記種別を消去し(ステップS211)、その処理を終了する。   In step S209, the correct notation determination unit 2 refers to the storage device 5 and checks whether or not a notation type that may contain an incorrect notation is recorded. And when it is not recorded (step S209 is No), the process is complete | finished. On the other hand, if it is recorded (Yes in step S209), the recorded notation type and the kana character string input from the kana character string input unit 1 are passed to the confirmation candidate extraction unit 3 (step) Thereafter, the notation type recorded in the storage device 5 is erased (step S211), and the process is terminated.

確認候補抽出部3は、正解表記判定部2から誤表記が含まれている可能性のある表記種別およびカナ文字列を渡されると、図3のフローチャートに示すように、渡された表記種別の1つに注目し、その表記種別についての確認候補抽出ルールに従って、上記カナ文字列から確認候補を抽出する(ステップS31,S33)。そして、正解表記判定部2から渡された全ての表記種別について、上記した処理を行うと(ステップS32がYes)、カナ文字列と抽出結果(例えば、各表記種別毎の抽出位置)とを確認候補提示部4に渡し(ステップS34)、その処理を終了する。確認候補提示部4は、確認候補抽出部3から渡されたカナ文字列および抽出結果に基づいて、図示を省略した表示部に表示する等して、カナ文字列と、カナ文字列中の確認候補とをユーザに提示する。その際、確認候補がどの表記種別についての確認候補なのか分かる形で表示する。   When the notation type and kana character string that may contain an incorrect notation are passed from the correct notation determination unit 2, the confirmation candidate extraction unit 3 receives the notation type of the passed notation type as shown in the flowchart of FIG. Paying attention to one, according to the confirmation candidate extraction rule for the notation type, a confirmation candidate is extracted from the kana character string (steps S31 and S33). Then, when the above processing is performed for all the notation types passed from the correct notation determination unit 2 (Yes in step S32), the kana character string and the extraction result (for example, the extraction position for each notation type) are confirmed. It passes to the candidate presentation part 4 (step S34), and the process is complete | finished. The confirmation candidate presenting unit 4 displays the kana character string and the confirmation in the kana character string by displaying them on a display unit (not shown) based on the kana character string and the extraction result passed from the confirmation candidate extracting unit 3. Candidates are presented to the user. At this time, the confirmation candidate is displayed in a form that can be understood as to which notation type the confirmation candidate is.

ここで、表記種別「長音表記」「拗音表記」「促音表記」「濁音・半濁音表記」それぞれの確認候補抽出ルールについて詳しく説明する。   Here, the confirmation candidate extraction rules for each of the notation types “long sound notation”, “stuttering notation”, “prompting sound notation”, and “turbid / semi-voice notation” will be described in detail.

(1)「長音表記」についての確認候補抽出ルール
(1-1)「確認候補抽出ルール1-1」…カナ文字と単独母音の連鎖であり、先行カナ文字の母音分と後続単独母音が同一の部分を確認候補として抽出。
(1-2)「確認候補抽出ルール1-2」…カナ文字と単独母音の連鎖であり、先行カナ文字の母音分と後続単独母音の組が「エイ」または「オウ」を成す部分を確認候補として抽出。
(1-3)「確認候補抽出ルール1-3」…カナ文字の連鎖「ンン」を確認候補として抽出。
(1) Confirmation candidate extraction rule for “long sound notation”
(1-1) “Confirmation candidate extraction rule 1-1” is a chain of kana characters and single vowels, and a portion where the vowel part of the preceding kana character and the subsequent single vowel are the same is extracted as a confirmation candidate.
(1-2) “Confirmation candidate extraction rule 1-2”: This is a chain of kana characters and single vowels, and the part where the vowel part of the preceding kana character and the subsequent single vowel form “A” or “O” is confirmed. Extracted as a candidate.
(1-3) “Confirmation candidate extraction rule 1-3”: A kana character chain “n” is extracted as a confirmation candidate.

上記確認候補抽出ルール1-1について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。   A description will be given of the confirmation candidate extraction rule 1-1. Specifically, the rule can be broken down into the following. Each example is shown.

・あ段に属するカナ文字と、文字「ア」の連鎖 (例: 部分列「カア」は長音「カー」の確認候補)。
・い段に属するカナ文字と、文字「イ」の連鎖 (例: 部分列「シイ」は長音「シー」の確認候補)。
・う段に属するカナ文字と、文字「ウ」の連鎖 (例: 部分列「ツウ」は長音「ツー」の確認候補)。
・え段に属するカナ文字と、文字「エ」の連鎖 (例: 部分列「ヘエ」は長音「ヘー」の確認候補)。
・お段に属するカナ文字と、文字「オ」の連鎖 (例: 部分列「ホオ」は長音「ホー」の確認候補)。
・ A chain of kana characters belonging to the dan and the character “a” (eg, substring “kaa” is a confirmation candidate for the long sound “car”).
・ A chain of kana characters belonging to the dan and the letter “I” (eg, substring “Shii” is a candidate for confirming the long sound “See”).
・ A chain of kana characters belonging to the dan and the character “u” (eg, substring “Tu” is a confirmation candidate for the long sound “Tu”).
・ A chain of kana characters belonging to Edan and the letter “e” (eg, substring “hee” is a confirmation candidate for the long sound “hee”).
・ A chain of kana characters belonging to the dan and the character “o” (eg, substring “ho” is a confirmation candidate for the long sound “ho”).

更に、上記確認候補抽出ルール1-2について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。   Further, the confirmation candidate extraction rule 1-2 will be described. Specifically, the rule can be broken down into the following. Each example is shown.

・え段に属するカナ文字と、文字「イ」の連鎖 (例: 部分列「ベイ」は長音「ベー」の確認候補)。
・お段に属するカナ文字と、文字「ウ」の連鎖 (例: 部分列「ポウ」は長音「ポー」の確認候補)。
・ A chain of kana characters belonging to Edan and the letter “I” (eg, substring “Bay” is a confirmation candidate for the long sound “Bay”).
・ A chain of kana characters belonging to the dan and the character “U” (eg, substring “PO” is a confirmation candidate for the long sound “PO”).

上記確認候補抽出ルール1-3は一種類しか無い。該当する例を示す。   The confirmation candidate extraction rule 1-3 has only one type. A corresponding example is shown.

・文字「ンン」の連鎖 (例: 長音「ンー」の確認候補)。 -Chain of characters “Nun” (eg, confirmation candidate for the long sound “Nun”).

これらの確認候補抽出ルール1-1〜1-3に加えて、先行する文字が小さいカナ文字の場合も、更に先行する文字と合わせて同様に扱うことも可能である。例えば、、任意の文字と、文字「ャ」と、文字「ア」の連鎖 (例: 部分列「キャア」は長音「キャー」の確認候補)となる。また、後続する文字として、小さいカナ文字を同一視して扱うこともできる。例えば、あ段に属する文字と、文字「ァ」の連鎖 (例: 部分列「カァ」は長音「カー」の確認候補)となる。   In addition to these confirmation candidate extraction rules 1-1 to 1-3, when the preceding character is a small kana character, it can be handled in the same manner together with the preceding character. For example, an arbitrary character, a character “a”, and a character “a” are chained (for example, the substring “Care” is a confirmation candidate for the long sound “Care”). In addition, as a subsequent character, a small kana character can be treated as the same. For example, it is a chain of characters belonging to the row and the character “a” (for example, the substring “ka” is a confirmation candidate for the long sound “car”).

これにより、カナ文字列中から長音表記にすべきか否かを確認する確認候補が抽出される。   As a result, a confirmation candidate for confirming whether or not to use long sound notation from the kana character string is extracted.

(2)「拗音表記」についての確認候補抽出ルール
(2-1)「確認候補抽出ルール2-1」…2つのカナ文字の連鎖であり、先行カナ文字の母音分が「イ」かつ後続カナ文字が「ヤ」または「ユ」または「ヨ」の部分を確認候補として抽出。
(2-2)「確認候補抽出ルール2-2」…2つのカナ文字の連鎖であり、先行カナ文字の母音分が「ウ」かつ後続カナ文字が「ワ」の部分を確認候補として抽出。
(2) Confirmation candidate extraction rule for “stuttering”
(2-1) “Confirmation candidate extraction rule 2-1” is a chain of two kana characters, the vowel part of the preceding kana character is “a” and the succeeding kana character is “ya” or “yu” or “yo”. Is extracted as a confirmation candidate.
(2-2) “Confirmation candidate extraction rule 2-2”: This is a chain of two kana characters, and a portion where the vowel part of the preceding kana character is “u” and the succeeding kana character is “wa” is extracted as a confirmation candidate.

上記確認候補抽出ルール2-1について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。   The confirmation candidate extraction rule 2-1 will be described. Specifically, the rule can be broken down into the following. Each example is shown.

・い段に属するカナ文字と、文字「ヤ」の連鎖 (例: 部分列「キヤ」は拗音「キャ」の確認候補)。
・い段に属するカナ文字と、文字「ユ」の連鎖 (例: 部分列「ジユ」は拗音「ジュ」の確認候補)。
・い段に属するカナ文字と、文字「ヨ」の連鎖 (例: 部分列「ピヨ」は拗音「ピョ」の確認候補)。
・ A chain of kana characters belonging to the dan and the character “ya” (eg, substring “ki” is a confirmation candidate for the roar “ca”).
・ A chain of kana characters belonging to the dan and the character “yu” (eg, substring “Jiyu” is a confirmation candidate for the roar “ju”).
・ A chain of kana characters belonging to the dan and the character “yo” (example: the substring “piyo” is a confirmation candidate for the roar “piyo”).

上記確認候補抽出ルール2-2は一種類しか無い。該当する例を示す。   The confirmation candidate extraction rule 2-2 has only one type. A corresponding example is shown.

・う段に属するカナ文字と、文字「ワ」の連鎖 (例: 部分列「クワ」は拗音「クヮ」の確認候補)。 ・ A chain of kana characters belonging to the dan and the character “wa” (eg, the substring “kwa” is a confirmation candidate for the roar “ku”).

これらのルールに加えて、先行カナ文字が母音の場合 (例: 「イヤ」)、先行カナ文字が小さなカナ文字の場合 (例: 「ィユ」) などは、拗音を構成しないとして、候補から除外しても良い。   In addition to these rules, if the leading kana character is a vowel (e.g. `` Year '') or the leading kana character is a small kana character (e.g. May be excluded.

これにより、カナ文字列中から拗音表記にすべきか否かを確認する確認候補が抽出される。   As a result, a confirmation candidate for confirming whether or not to use stuttering is extracted from the kana character string.

(3)「促音表記」についての確認候補抽出ルール
(3-1)「確認候補抽出ルール3-1」…3つのカナ文字の連鎖であり、中央のカナ文字が「ツ」の部分を確認候補とする。
(3) Confirmation candidate extraction rule for “sound prompt notation”
(3-1) “Confirmation candidate extraction rule 3-1”: a chain of three kana characters, with the central kana character “tsu” being a confirmation candidate.

上記確認候補抽出ルール3-1は一種類しか無い。該当する例を示す。   The confirmation candidate extraction rule 3-1 has only one type. A corresponding example is shown.

・任意のカナ文字と、文字「ツ」と、任意のカナ文字の連鎖 (例: 部分列「アツタ」は促音「アッタ」の確認候補)。 -Arbitrary kana characters, the character “tsu”, and the chain of arbitrary kana characters (eg, substring “Atta” is a confirmation candidate for the prompt sound “Atta”).

上記確認候補抽出ルールに加えて、先行カナ文字が小さなカナ文字の場合 (例: 「ィツタ」)、後続カナ文字が「ア」「イ」「ウ」「エ」「オ」「ワ」「ヲ」「ン」の何れかの場合 (例: 「アツア」) などは、促音を構成しないとして、候補から除外して判定するルールを採用しても良い。   In addition to the above confirmation candidate extraction rules, if the preceding kana character is a small kana character (eg "Ituta"), the following kana characters are "a", "i", "u", "e", "o", "wa", "wo" In any case of "" or "" (e.g., "Atsua"), a rule may be adopted that excludes the candidate and determines that the sound is not configured.

これにより、カナ文字列中から促音表記にすべきか否かを確認する確認候補が抽出される。   As a result, a confirmation candidate for confirming whether or not the phonetic sound should be expressed from the kana character string is extracted.

(4)「濁音・半濁音表記」についての確認候補抽出ルール
(4-1)「確認候補抽出ルール4-1」…か行、さ行、た行、は行のカナ文字を確認候補として抽出する。
(4) Confirmation candidate extraction rule for “sound / semi-sound notation”
(4-1) “Confirmation candidate extraction rule 4-1”..., Line, line, line, and kana characters in the line are extracted as confirmation candidates.

上記確認候補抽出ルール4-1について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。   The confirmation candidate extraction rule 4-1 will be described. Specifically, the rule can be broken down into the following. Each example is shown.

・か行、さ行、た行のカナ文字は、濁音の可能性がある (例: 部分列「カ」は濁音「ガ」の確認候補)。
・は行のカナ文字は、濁音と同時に半濁音の可能性がある (例: 部分列「ヒ」は濁音「ビ」と半濁音「ピ」の確認候補)。
・ Kana characters in the ka, sa, and ta lines may be muddy (eg, substring “K” is a candidate for checking muddy sound “Ga”).
・ The kana character in the line may be a cloudy sound and a semi-sounding sound (for example, the substring “hi” is a confirmation candidate for the cloudy sound “bi” and the semi-sounding sound “pi”).

なお、上述した実施の形態では説明しなかったが、先行する表記種別についての確認候補抽出ルールによって既に確認候補を抽出している区間は、後続の種別表記についての確認候補抽出ルールでは確認候補を抽出しないとすることもできる。また、上述した実施の形態では、4種類の正解表記判定ルールおよび確認候補抽出ルールを逐次処理するようにしたが、並列処理するようにしても良い。また、上述した実施の形態では説明しなかったが、「へ」を「え」の確認候補として抽出するような確認候補抽出ルールを使用するようにしても良い。また、上述した実施の形態では、正解表記判定ルールおよび確認候補抽出ルールを記憶装置5に記録し、正解表記判定部2および確認候補抽出部3が記憶装置5に記録されている正解表記判定ルールおよび確認候補抽出ルールを使用して正規表記が含まれているか否かの判定処理および確認候補の抽出処理を行うようにしたが、正解表記判定部2および確認候補抽出部3に判定処理および抽出処理を行うロジックを組み込んでおくようにしても良い。   Although not described in the above-described embodiment, a section in which a confirmation candidate has already been extracted by a confirmation candidate extraction rule for a preceding notation type is a confirmation candidate in a confirmation candidate extraction rule for a subsequent type notation. It is possible not to extract. In the above-described embodiment, four types of correct notation determination rules and confirmation candidate extraction rules are sequentially processed, but they may be processed in parallel. In addition, although not described in the above-described embodiment, a confirmation candidate extraction rule that extracts “he” as a confirmation candidate for “e” may be used. In the above-described embodiment, the correct notation determination rule and the confirmation candidate extraction rule are recorded in the storage device 5, and the correct notation determination rule 2 and the confirmation candidate extraction unit 3 are recorded in the storage device 5. In addition, the determination process of whether or not the normal notation is included and the extraction process of the confirmation candidate are performed using the confirmation candidate extraction rule, but the determination process and the extraction are performed in the correct notation determination unit 2 and the confirmation candidate extraction unit 3 You may make it incorporate the logic which performs a process.

次に、カナ文字列入力部1からカナ文字列「ニユウエヌイイシイカツフ」が入力された場合を例に挙げて、本実施の形態の動作について説明する。   Next, the operation of the present embodiment will be described by taking as an example the case where the kana character string “Nyu Ueno Ishii Katsuf” is input from the kana character string input unit 1.

正解表記判定部2は、カナ文字列入力部1から上記カナ文字列が入力されると、図2のフローチャートに示す処理を実行する。この例の場合、前述した正解表記判定ルール1により長音表記が含まれていないと判定され(ステップS201)、正解表記判定ルール2により拗音表記が含まれていないと判定され(ステップS203)、正解表記判定ルール3により促音表記が含まれていないと判定され(ステップS205)、正解表記判定ルール4により濁音・半濁音表記が含まれていないと判定される(ステップS207)。従って、正解表記判定部2は、正解表記が含まれていない可能性がある表記種別として「長音表記」「拗音表記」「促音表記」「濁音・半濁音」を確認候補抽出部3に渡すと共に、上記カナ文字列を確認候補抽出部3に渡す。   When the kana character string is input from the kana character string input unit 1, the correct answer notation determination unit 2 executes the process shown in the flowchart of FIG. 2. In the case of this example, it is determined that the above-described correct notation determination rule 1 does not include a long sound notation (step S201), and the correct answer notation determination rule 2 determines that no stuttering notation is included (step S203). It is determined by the notation determination rule 3 that the prompt sound notation is not included (step S205), and it is determined by the correct answer notation determination rule 4 that the muddy / semi-turbid sound notation is not included (step S207). Therefore, the correct answer notation determination unit 2 passes “long sound notation”, “stuttering notation”, “promotion sound notation”, and “turbid sound / semi-turbid sound” to the confirmation candidate extracting unit 3 as notation types that may not include the correct answer notation. The kana character string is passed to the confirmation candidate extraction unit 3.

これにより、確認候補抽出部3は、図3のフローチャートに示す処理を実行する。先ず、確認候補抽出部3は、正解表記判定部2から渡された4つの表記種別の内の1つに注目し、注目した表記種別についての確認候補抽出ルールに従って、カナ文字列から確認候補を抽出する(ステップS31,S33)。今、例えば、「長音表記」に注目したとすると、確認候補抽出部3は前述した確認候補抽出ルール1-1〜1-3に従って、長音表記についての確認候補として文字列「ユウ」「イイ」「シイ」を抽出し、下記のように、長音表記に関する情報として、確認候補と、抽出結果(抽出位置)と、確認候補に対する訂正候補とを関連付けて記憶装置5などに記録する。なお、抽出結果は、少なくとも確認候補の抽出位置を含む。また、訂正候補は、確認候補の第2番目の文字を長音文字に書き換えることにより作成することができる。   As a result, the confirmation candidate extraction unit 3 executes the processing shown in the flowchart of FIG. First, the confirmation candidate extraction unit 3 pays attention to one of the four notation types passed from the correct notation determination unit 2, and according to the confirmation candidate extraction rule for the noticed notation type, the confirmation candidate is extracted from the kana character string. Extract (steps S31 and S33). Now, for example, if attention is paid to “long sound notation”, the confirmation candidate extraction unit 3 follows the above-described confirmation candidate extraction rules 1-1 to 1-3 as the confirmation candidates for long sound notation as the character strings “Yu” and “good”. As shown below, “SHI” is extracted, and the confirmation candidate, the extraction result (extraction position), and the correction candidate for the confirmation candidate are associated with each other and recorded in the storage device 5 or the like. The extraction result includes at least the extraction position of the confirmation candidate. Further, the correction candidate can be created by rewriting the second character of the confirmation candidate with a long sound character.

・「ユウ」(位置=2-3文字目、訂正候補=「ユー」)
・「イイ」(位置=6-7文字目、訂正候補=「イー」)
・「シイ」(位置=8-9文字目、長音候補=「シー」)
・ "Yu" (position = 2-3rd character, correction candidate = "you")
・ `` Good '' (position = 6-7 characters, correction candidate = `` E '')
・ `` Shii '' (position = 8th-9th characters, long sound candidate = `` sea '')

その後、確認候補抽出部3は、未注目の表記種別の内の1つ(例えば、「拗音表記」)に注目する(ステップS31)。そして、拗音表記についての確認候補抽出ルール2-1,2-2に従って、拗音表記についての確認候補として文字列「ニユ」を抽出し、下記のように、拗音表記に関する情報として、確認候補と、抽出位置と、確認候補に対する訂正候補とを関連付けて記憶装置5などに記録する(ステップS33)。なお、訂正候補は、確認候補の第2番目の文字を拗音表記に書き換えることにより作成できる。   Thereafter, the confirmation candidate extraction unit 3 pays attention to one of the not-noted notation types (for example, “stuttering notation”) (step S31). Then, according to the confirmation candidate extraction rules 2-1 and 2-2 for the stuttering notation, the character string “Nyu” is extracted as the confirmation candidate for the stuttering notation. The extraction position and the correction candidate for the confirmation candidate are associated and recorded in the storage device 5 or the like (step S33). The correction candidate can be created by rewriting the second character of the confirmation candidate into a stuttering notation.

・「ニユ」(位置=1-2文字目、訂正候補=「ニュ」)   ・ "Nyu" (position = 1-2 characters, correction candidate = "nu")

次に、確認候補抽出部3は、未注目の表記種別の内の1つ(例えば、「促音表記」)に注目する(ステップS31)。そして、促音表記についての確認候補抽出ルール3-1に従って、促音表記についての確認候補として文字列「カツフ」を抽出し、下記のように、促音表記に関する情報として、確認候補と、その抽出位置、と、確認候補に対する訂正候補とを記憶装置5に関連付けて記録する(ステップS33)。なお、訂正候補は、確認候補の第2番目の文字を促音表記に書き換えることにより作成できる。   Next, the confirmation candidate extraction unit 3 pays attention to one of the not-noted notation types (for example, “prompting sound notation”) (step S31). Then, in accordance with the confirmation candidate extraction rule 3-1 for the sound notation, the character string “Katsuf” is extracted as the confirmation candidate for the sound notation, and the confirmation candidate, its extraction position, And a correction candidate for the confirmation candidate are recorded in association with the storage device 5 (step S33). Note that the correction candidate can be created by rewriting the second character of the confirmation candidate into a prompt sound expression.

・「カツフ」(位置=10-12文字目、訂正候補=「カッフ」) ・ "Katsufu" (position = 10-12 characters, correction candidate = "Cuff")

その後、確認候補抽出部3は、未注目の表記種別の内の1つ(例えば、「濁音・半濁音」)に注目する(ステップS31)。そして、濁音・半濁音についての確認候補抽出ルール4-1に従って、濁音・半濁音表記についての確認候補として「シ」「カ」「ツ」「フ」を抽出し、下記のように、濁音・半濁音表記に関する情報として、確認候補と、その抽出位置と、確認候補に対する訂正候補とを記憶装置5に関連付けて記録する(ステップS33)。なお、濁音、半濁音の訂正候補は、確認候補に濁点、半濁点を付けることにより作成することができる。但し、半濁音の訂正候補は、確認候補がは行のカナ文字の場合のみ作成する。   Thereafter, the confirmation candidate extraction unit 3 pays attention to one of the not-notated notation types (for example, “turbid sound / semi-turbid sound”) (step S31). Then, according to Confirmation Candidate Extraction Rule 4-1 for muddy sound / semi-turbid sound, “shi”, “ka”, “tsu”, “fu” are extracted as confirmation candidates for muddy sound / semi-turbid sound notation. As information about the semi-voiced sound notation, a confirmation candidate, its extraction position, and a correction candidate for the confirmation candidate are recorded in association with the storage device 5 (step S33). In addition, the correction candidate of a muddy sound and a semi-turbid sound can be created by attaching a muddy point and a semi-turbid point to a confirmation candidate. However, semi-turbid sound correction candidates are created only when the confirmation candidate is a kana character in a line.

・「シ」(位置=8文字目、濁音の訂正候補=「ジ」、半濁音の訂正候補なし)
・「カ」(位置=10文字目、濁音の訂正候補=「ガ」、半濁音の訂正候補なし)
・「ツ」(位置=11文字目、濁音の訂正候補=「ヅ」、半濁音の訂正候補なし)
・「フ」(位置=12文字目、濁音の訂正候補=「ブ」、半濁音の訂正候補=「プ」)
・ `` Shi '' (position = 8th character, muddy sound correction candidate = `` di '', no semi-turbid sound correction candidate)
・ "K" (position = 10th character, muddy sound correction candidate = "ga", no muddy sound correction candidate)
・ `` Tsu '' (position = 11th character, muddy sound correction candidate = `` ヅ '', no muddy sound correction candidate)
・ "F" (position = 12th character, muddy sound correction candidate = "bu", semi-turbid sound correction candidate = "p")

確認候補抽出部3は、正解表記判定部2から渡された全ての表記種別に対して上述した処理を行うと(ステップS32がYes)、記憶装置5に記録されている各表記種別に関する情報(確認候補、抽出位置、訂正候補)と、カナ文字列「ニユウエヌイイシイカツフ」とを確認候補提示部4に渡す(ステップS34)。   When the confirmation candidate extraction unit 3 performs the above-described processing for all the notation types passed from the correct notation determination unit 2 (Yes in step S32), information on each notation type recorded in the storage device 5 ( (Confirmation candidate, extraction position, correction candidate) and the kana character string “Nyu Ueno Ishii Katsuf” are passed to the confirmation candidate presenting unit 4 (step S34).

確認候補提示部4は、確認候補抽出部3から渡された情報に従って、図示を省略した表示部に図4に示す確認画面を表示する。   The confirmation candidate presentation unit 4 displays the confirmation screen shown in FIG. 4 on a display unit (not shown) according to the information passed from the confirmation candidate extraction unit 3.

「カナ文字列」欄には、確認候補抽出部3から入力されたカナ文字列「ニユウエヌイイシイカツフ」を表示する。「長音候補」欄には、長音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。確認候補の位置を示す横線は、確認候補抽出部3から渡された上記確認候補の抽出位置に基づいて表示する。例えば、確認候補の抽出位置が「2-3文字目」の場合は、カナ文字列の第2番目、第3番目の文字「ユウ」と対応する位置に横線を表示する。また、その横線に関連付けて訂正候補を表示する。   In the “kana character string” column, the kana character string “Niyu Ueno Ishii Katsu” inputted from the confirmation candidate extraction unit 3 is displayed. In the “long sound candidate” column, a horizontal line indicating the position of the confirmation candidate for the long sound notation and a correction candidate for the confirmation candidate are displayed. The horizontal line indicating the position of the confirmation candidate is displayed based on the extraction position of the confirmation candidate passed from the confirmation candidate extraction unit 3. For example, when the extraction position of the confirmation candidate is “2-3rd character”, a horizontal line is displayed at a position corresponding to the second and third characters “Yu” of the kana character string. In addition, correction candidates are displayed in association with the horizontal line.

「拗音候補」欄には、拗音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。「促音候補」欄には、促音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。「濁音候補」欄には、濁音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。「半濁音候補」欄には、確認候補に対する訂正候補を表示する。   In the “stuttering candidate” column, a horizontal line indicating the position of the confirmation candidate for stuttering and a correction candidate for the confirmation candidate are displayed. In the “prompting sound candidate” column, a horizontal line indicating the position of the confirmation candidate for the prompt sound notation and a correction candidate for the confirmation candidate are displayed. In the “Muddy sound candidate” column, a horizontal line indicating the position of the confirmation candidate for the muddy sound notation and a correction candidate for the confirmation candidate are displayed. Correction candidates for the confirmation candidates are displayed in the “semi-voice sound candidate” field.

ユーザは、図4に示す確認画面に表示されている確認候補を示す横線や訂正候補などを見て、入力されたカナ文字列「ニユウエヌイイシイカツフ」に対する正解表記が「ニューエヌイーシーカップ」であると認識する。そして、音声合成装置用の辞書に入力カナ文字列「ニユウエヌイイシイカツフ」と正解表記「ニューエヌイーシーカップ」とを関連付けて記録する。或いは、カナ文字列を入力したデータベース或いは辞書の該当部分を直接正解表記で書き換えることにより、読み上げ文字列辞書を作成する。   The user sees the horizontal line indicating the confirmation candidate displayed on the confirmation screen shown in FIG. 4, the correction candidate, and the like, and the correct answer notation for the inputted kana character string “Nyuuei Ishii Katsuf” is “New NUC Cup” Recognize that Then, the input kana character string “Nyu Ueno Ishii Katsuf” and the correct notation “New NC Cup” are recorded in association with the dictionary for the speech synthesizer. Alternatively, the reading character string dictionary is created by directly rewriting the corresponding part of the database or dictionary to which the kana character string is inputted with the correct notation.

確認候補提示部4が表示する確認画面の他の例を図5に示す。この場合、確認候補提示部4は、確認候補抽出部3から渡されたカナ文字列を表示部に表示すると共に、確認候補が存在する区間に下線を表示する。なお、他の表記種別の確認候補が存在する区間に、その表記種別の確認候補が存在する区間が全て含まれる場合には、上記他の表記種別の確認候補が存在する区間を示す下線だけを表示する。そして、マウスポインタが下線に当てられ、区間が選択されると、確認候補提示部4は、該当区間で取り得る訂正候補の組を求め、表示する。該当区間で取り得る訂正候補の組は、確認候補抽出部3から渡された訂正候補の内の、上記該当区間に関連する訂正候補に基づいて作成する。   Another example of the confirmation screen displayed by the confirmation candidate presenting unit 4 is shown in FIG. In this case, the confirmation candidate presenting unit 4 displays the kana character string passed from the confirmation candidate extraction unit 3 on the display unit, and displays an underline in the section where the confirmation candidate exists. In addition, when all the sections where the confirmation candidates of the other notation type exist are included in the section where the confirmation candidates of the other notation type exist, only the underline indicating the section where the confirmation candidate of the other notation type exists. indicate. When the mouse pointer is underlined and a section is selected, the confirmation candidate presenting unit 4 obtains and displays a set of correction candidates that can be taken in the section. A set of correction candidates that can be taken in the corresponding section is created based on the correction candidates related to the corresponding section among the correction candidates delivered from the confirmation candidate extraction unit 3.

なお、上述した実施の形態では、入力文字列をカナ文字列としたが、漢字混じり文字列であってもよい。例えば、特許の公開公報を入力文字列とし、正解表記判定ルールとして特定の文字「登録商標」が入力文字列に含まれているか否かを判定するルールを採用し、確認候補抽出ルールとして上記特定の文字「登録商標」が欠落している箇所を入力文字列から抽出するルールを採用することもできる。   In the above-described embodiment, the input character string is a kana character string, but may be a character string mixed with kanji. For example, a patent publication is used as an input character string, a rule for determining whether or not a specific character “registered trademark” is included in the input character string as a correct notation determination rule, and the above specification as a confirmation candidate extraction rule It is also possible to adopt a rule for extracting a portion where the character “registered trademark” is missing from the input character string.

[第1の実施の形態の効果]
本実施の形態によれば、誤りの無い或いは少ない入力カナ文字列に対して、無駄に誤り検出が行われないようにすることができる。その理由は、入力カナ文字列に特定の文字が含まれている場合、上記入力カナ文字列は上記特定の文字を考慮して作成されているため、上記特定の文字が欠落している箇所が存在する可能性は小さいと考えられる。そのため、正解表記判定部2(判定手段)で入力カナ文字列に特定の文字が含まれていないと判定した場合に限って、確認候補抽出部3(検出手段)で特定の文字が欠落している箇所を入力カナ文字列中から検出することにより、誤りの無い或いは少ない入力カナ文字列に対して無駄に誤り検出が行われてしまうことがなくなる。
[Effect of the first embodiment]
According to the present embodiment, error detection can be prevented from being performed unnecessarily for an input kana character string having no or few errors. The reason is that when the input kana character string includes a specific character, the input kana character string is created in consideration of the specific character. The possibility of existing is considered small. Therefore, only when the correct notation determination unit 2 (determination unit) determines that a specific character is not included in the input kana character string, the confirmation candidate extraction unit 3 (detection unit) lacks the specific character. By detecting the existing portion from the input kana character string, it is possible to prevent the error detection from being performed unnecessarily for the input kana character string having no or few errors.

[本発明の第2の実施の形態]
次に、本発明の第2の実施の形態について説明する。本実施の形態は、作成する音声合成装置用の辞書のレベルに応じて、ユーザに提示する確認候補を異なるものにすることを特徴とする。音声合成装置用の辞書を作成する場合、例えば、違和感はあっても聴き間違えは生じないような辞書を作成する場合と、違和感も聴き間違えも生じないような辞書を作成する場合とでは、入力カナ文字列に対する修正箇所が異なるものとなる。本実施の形態では、作成する辞書のレベルに応じて、ユーザに提示する確認候補を異なるものにすることにより、辞書を作成する際の作業量を、作成する辞書のレベルに応じたものにする。
[Second embodiment of the present invention]
Next, a second embodiment of the present invention will be described. The present embodiment is characterized in that confirmation candidates to be presented to the user differ depending on the level of the dictionary for the speech synthesizer to be created. When creating a dictionary for a speech synthesizer, for example, when creating a dictionary that does not cause a mistake even if there is a sense of incongruity, or when creating a dictionary that does not cause a sense of incongruity or a mistake The correction part for the kana character string is different. In the present embodiment, the confirmation candidates to be presented to the user are made different depending on the level of the dictionary to be created, so that the amount of work when creating the dictionary depends on the level of the dictionary to be created. .

本実施の形態の入力文字列誤り検出装置は、図1に示した第1の実施の形態における確認候補抽出部3および確認候補提示部4にそれぞれ次のような機能を付加することにより、実現される。確認候補抽出部3には、入力カナ文字列から抽出した確認候補に、その確認候補を音声として聴いたときの聴き間違える度合い、または、違和感に応じた作業優先度を付与する機能を付加する。確認候補提示部4には、入力カナ文字列と、確認候補抽出部3で抽出された確認候補の内の、ユーザによって指定された作業優先度以上の確認候補とを関連付けて表示する機能を付加する。なお、本実施の形態の入力文字列誤り検出装置も、第1の実施の形態の入力文字列誤り検出装置と同様にコンピュータによって実現可能である。   The input character string error detection apparatus according to the present embodiment is realized by adding the following functions to the confirmation candidate extraction unit 3 and the confirmation candidate presentation unit 4 in the first embodiment shown in FIG. Is done. The confirmation candidate extraction unit 3 is added with a function of giving a confirmation priority extracted according to the kana character string to the confirmation candidate extracted from the input kana character string, or a task priority according to a sense of discomfort when listening to the confirmation candidate as speech. The confirmation candidate presenting unit 4 has a function of displaying the input kana character string in association with the confirmation candidates of the work priority or higher specified by the user among the confirmation candidates extracted by the confirmation candidate extracting unit 3 To do. Note that the input character string error detection apparatus according to the present embodiment can also be realized by a computer in the same manner as the input character string error detection apparatus according to the first embodiment.

次に、本実施の形態の動作について説明する。ここでは、以下の3つのカナ文字列(a)〜(c)が入力された場合を例に挙げて動作を説明する。   Next, the operation of the present embodiment will be described. Here, the operation will be described by taking as an example the case where the following three Kana character strings (a) to (c) are input.

(a) ニユウエヌイイシイカツフ
(b) スウパアコンピュウタ
(c) カツティングシート
(a) Nieuwe Ishii Katsuf
(b) Super computer
(c) Cutting sheet

正解表記判定部2は、各カナ文字列(a)〜(c)に対して正解表記判定ルールを用いて判定処理を行い、正解表記が存在しない表記種別を含んだカナ文字列と、正解表記が存在しない表記種別とを確認候補抽出部3に渡す(図2参照)。この例の場合、下記の情報が確認候補提示部4に渡される。   The correct notation determination unit 2 performs a determination process on each kana character string (a) to (c) using the correct answer notation determination rule, a kana character string including a notation type for which there is no correct notation, and a correct answer notation. A notation type that does not exist is passed to the confirmation candidate extraction unit 3 (see FIG. 2). In the case of this example, the following information is passed to the confirmation candidate presenting unit 4.

・カナ文字列(a)と、表記種別「長音表記、拗音表記、促音表記、濁音・半濁音表記」との組。
・カナ文字列(b)と、表記種別「長音表記、促音表記」との組。
・カナ文字列(c)と、表記種別「拗音表記、促音表記」との組。
・ A set of kana character string (a) and notation type “long sound notation, stuttering notation, prompt sound notation, muddy / semi-notated notation”.
・ A set of kana character string (b) and notation type “long sound notation, prompt sound notation”.
-A combination of the Kana character string (c) and the notation type “stuttering notation, prompting notation”.

確認候補抽出部3は、カナ文字列と表記種別との組が入力される毎に、確認候補抽出ルールを使用して確認候補を抽出する(図3のステップS31,S33)。なお、ステップS33において、本実施の形態では、抽出した各確認候補の作業優先度を表記種別に応じて決定し、確認候補と関連付けて記憶装置5に記録する処理も行う。ここでは、作業優先度は、小さい数値ほど優先度が高いと定義し、音声として聴いた場合に内容を聴き間違える可能性の高い拗音表記または濁音・半濁音表記についての確認候補の作業優先度を「1」とし、違和感は大きいものの正解表記の想起が容易な促音表記についての確認候補の作業優先度を「2」し、違和感の小さい長音表記についての確認候補の作業優先度を「3」とする。更に、ステップS33において、本実施の形態では、処理対象にしているカナ文字列の優先度を決定し、記憶装置5に記録処理も行う。カナ文字列の作業優先度は、そのカナ文字列から抽出した各確認候補の作業優先度の内の、最も高い作業優先度とする。   Each time a pair of a kana character string and a notation type is input, the confirmation candidate extraction unit 3 extracts a confirmation candidate using a confirmation candidate extraction rule (steps S31 and S33 in FIG. 3). In step S33, in the present embodiment, the processing priority of each extracted confirmation candidate is determined according to the notation type, and is also recorded in the storage device 5 in association with the confirmation candidate. Here, the work priority is defined as the lower priority, the higher the priority.When listening as a voice, the work priority of the confirmation candidate for the stuttering notation or muddy / semi-voice notation is likely to be mistaken. The priority of the confirmation candidate for the prompt notation that is easy to recall the correct answer but with a sense of discomfort is “2”, and the priority of the confirmation candidate for the long notation with a small discomfort is “3”. To do. Furthermore, in step S33, in this embodiment, the priority of the kana character string to be processed is determined, and recording processing is also performed in the storage device 5. The work priority of the kana character string is the highest work priority among the work priorities of each confirmation candidate extracted from the kana character string.

この例では、各カナ文字列(a)〜(c)の作業優先度は、次のようになる。   In this example, the work priorities of the kana character strings (a) to (c) are as follows.

・カナ文字列(a)…カナ文字列(a)には、表記種別が「長音表記、拗音表記、促音表記、濁音・半濁音表記」の確認候補が存在するので、カナ文字列(a)の作業優先度は、それらの作業優先度の内の最も高い作業優先度「1」とする。
・カナ文字列(b)…カナ文字列(b)には、表記種別が「長音表記」の確認候補しか存在しなので、カナ文字列(b)の作業優先度は、長音表記の確認候補の作業優先度「3」とする。
・カナ文字列(c)…カナ文字列(c)には、表記種別が「促音表記」の確認候補しか存在しないので、カナ文字列(c)の作業優先度は、促音表記の確認候補の作業優先度「2」とする。
・ Kana character string (a)… There is a confirmation candidate for the kana character string (a) whose notation type is “long sound notation, stuttering notation, prompt sound notation, muddy / semi-notated notation”. The work priority is set to “1” as the highest work priority among the work priorities.
・ Kana character string (b) ... Since the kana character string (b) has only the confirmation candidate whose notation type is “long sound notation”, the work priority of the kana character string (b) is the confirmation candidate for the long sound notation. The work priority is “3”.
・ Kana character string (c): Since there is only a confirmation candidate whose notation type is “prompting notation” in the kana character string (c), the work priority of the kana character string (c) is the confirmation candidate of the prompt sound notation. The work priority is “2”.

これらの作業優先度に関する情報は、ステップS34において確認候補提示部4にカナ文字列などを渡す際に、それらと共に確認候補提示部4に渡される。   Information regarding these work priorities is passed to the confirmation candidate presenting unit 4 together with a kana character string or the like when the kana character string or the like is handed to the confirmation candidate presenting unit 4 in step S34.

確認候補提示部4は、確認候補抽出部3から渡される情報に従って、図6に示すような確認画面を表示する。この確認画面には、作業優先度の入力欄が設けられており、ユーザは、図示を省略したキーボードなどを利用して作業優先度を入力することができるようになっている。確認候補提示部4は、表示部にカナ文字列や確認候補などを表示する際には、作業優先度の入力欄から入力されている作業優先度以上の優先度を有するカナ文字列および確認候補のみを表示する。例えば、入力欄から作業優先度「2」が入力されている場合は、確認候補提示部4は、作業優先度が「1」のカナ文字列(a)と、作業優先度が「2」のカナ文字列(c)は、表示するが、作業優先度が「3」のカナ文字列(b)は表示しない。言い換えれば、確認候補抽出部3で抽出された確認候補の中に、ユーザによって指定された作業優先度以上の確認候補が存在しない入力カナ文字列については、ユーザへの提示処理は行わない。また、カナ文字列(a),(c)についても、作業優先度が「1」または「2」の確認候補は表示するが、作業優先度が「3」の長音表記についての確認候補は表示していない。図6では、作業優先度が「1」の確認候補を実線、作業優先度が「2」の確認候補を点線で示すようにしているので、ユーザは確認候補の作業優先度の違いを容易に認識することができる。   The confirmation candidate presenting unit 4 displays a confirmation screen as shown in FIG. 6 according to the information passed from the confirmation candidate extracting unit 3. This confirmation screen is provided with an input field for work priority, and the user can input the work priority using a keyboard (not shown). The confirmation candidate presenting unit 4 displays a kana character string and a confirmation candidate having a priority higher than the work priority input from the work priority input field when displaying a kana character string or a confirmation candidate on the display unit. Display only. For example, when the work priority “2” is input from the input field, the confirmation candidate presenting unit 4 has the kana character string (a) with the work priority “1” and the work priority “2”. The kana character string (c) is displayed, but the kana character string (b) having the work priority “3” is not displayed. In other words, the input kana character string for which there is no confirmation candidate higher than the work priority specified by the user among the confirmation candidates extracted by the confirmation candidate extraction unit 3 is not presented to the user. In addition, for kana character strings (a) and (c), confirmation candidates with work priority “1” or “2” are displayed, but confirmation candidates for long sound notation with work priority “3” are displayed. Not done. In FIG. 6, confirmation candidates with work priority “1” are indicated by solid lines, and confirmation candidates with work priority “2” are indicated by dotted lines. Can be recognized.

なお、図6では、各候補の種類ごとに「濁音?」「拗音?」「促音?」のように候補の種類を合わせて表示することで判りやすさを向上させているが、代わりに確認候補抽出部3が推測可能な正解表記生成して、表示することもできる。また、ここでは、作業優先度の付与を候補の種類ごとに行ったが、よりきめ細かく、例えば長音候補の各ルール間の聴き間違いのしやすさをコーパス中のバイグラム等の出現頻度によって数値化し、作業優先度に割り当てることもできる。また、ここでは、確認候補の作業優先度を、その表記種別に基づいて決定するようにしたが、その確認候補を抽出した確認候補抽出ルールに基づいて決定するようにしても良い。例えば、第1の実施の形態で説明した確認候補抽出ルール1-1によって抽出された確認候補には優先度「1」、確認候補抽出ルール1-2によって抽出された箇所には優先度「3」のように設定する。これにより、聴き誤りや違和感への対応をよりきめ細かく取ることが可能である。   In addition, in FIG. 6, the candidate types are displayed together with each candidate type, such as “Muddy sound?”, “Stuttering sound?”, And “Sounding sound?”. It is also possible to generate and display correct notation that can be guessed by the candidate extraction unit 3. Also, here, work priorities were assigned for each type of candidate, but more finely, for example, the ease of hearing mistakes between each rule of long sound candidates is quantified by the appearance frequency of bigrams etc. in the corpus, It can also be assigned to work priority. Further, here, the work priority of the confirmation candidate is determined based on the notation type, but it may be determined based on the confirmation candidate extraction rule from which the confirmation candidate is extracted. For example, the priority “1” is given to the confirmation candidate extracted by the confirmation candidate extraction rule 1-1 described in the first embodiment, and the priority “3” is given to the part extracted by the confirmation candidate extraction rule 1-2. "Is set. As a result, it is possible to take more detailed measures for listening errors and discomfort.

[第2の実施の形態の効果]
本実施の形態によれば、作成する音声合成装置用の辞書のレベルに応じて、ユーザに提示する確認候補を異なるものにすることが可能になる。その理由は、カナ文字列から抽出した確認候補に、その確認候補を音声として聴いたときの聴き間違える度合い、または、違和感に応じた作業優先度を付与し、ユーザに確認候補を提示する際には、ユーザによって指定された作業優先度以上の確認候補を提示するようにしているからである。
[Effect of the second embodiment]
According to the present embodiment, the confirmation candidates presented to the user can be made different depending on the level of the dictionary for the speech synthesizer to be created. The reason is that the confirmation candidate extracted from the kana character string is given a degree of listening mistake when listening to the confirmation candidate as speech, or a work priority according to the sense of incongruity, and the confirmation candidate is presented to the user. This is because a confirmation candidate having a work priority or higher designated by the user is presented.

[本発明の第3の実施の形態]
次に、本発明の第3の実施の形態について説明する。本実施の形態は、ユーザが容易に訂正済みカナ文字列を音声合成装置用の辞書に登録できるようにしたことを特徴とする。
[Third embodiment of the present invention]
Next, a third embodiment of the present invention will be described. This embodiment is characterized in that the user can easily register the corrected kana character string in the dictionary for the speech synthesizer.

図7は、本実施の形態にかかる入力文字列誤り検出装置の構成例を示すブロック図であり、図1に示した第1の実施の形態における入力文字列誤り検出装置との相違点は、確認候補提示部4の代わりに確認候補提示部4aを備えている点、辞書登録部6を備えている点、および、辞書7を備えている点である。   FIG. 7 is a block diagram showing a configuration example of the input character string error detection apparatus according to the present embodiment. Differences from the input character string error detection apparatus in the first embodiment shown in FIG. It is the point provided with the confirmation candidate presentation part 4a instead of the confirmation candidate presentation part 4, the point provided with the dictionary registration part 6, and the point provided with the dictionary 7.

確認候補提示部4aは、確認候補提示部4が備えている機能に加え、確認画面に表示しているカナ文字列を、ユーザが選択した訂正候補によって訂正したり、ユーザが行う編集作業に従って訂正したりし、訂正カナ文字列を作成する機能を有する。辞書登録部6は、確認候補提示部4aで作成された訂正カナ文字列を辞書7に登録する機能を有する。   In addition to the functions provided by the confirmation candidate presenting unit 4, the confirmation candidate presenting unit 4a corrects the kana character string displayed on the confirmation screen with the correction candidate selected by the user or according to the editing work performed by the user. And has a function of creating a corrected kana character string. The dictionary registration unit 6 has a function of registering the corrected kana character string created by the confirmation candidate presenting unit 4 a in the dictionary 7.

なお、本実施の形態の入力文字列誤り検出装置も、第1の実施の形態と同様に、コンピュータによって実現可能である。   Note that the input character string error detection apparatus of the present embodiment can also be realized by a computer, as in the first embodiment.

次に、本実施の形態に動作について説明する。   Next, the operation of this embodiment will be described.

今、確認候補提示部4aが表示部に図4に示すような確認画面を表示しているとする。ユーザが、訂正候補を選択し、入力カナ文字列を直接編集すると、確認候補提示部4aは、カナ文字列中に確認候補を選択された訂正候補で置き換えるなどして、訂正済み文字列「ニューエヌイーシーカップ」を作成し、辞書登録部6に渡す。辞書登録部6は、訂正済みカナ文字列「ニューエヌイーシーカップ」と入力カナ文字列「ニユウエヌイイシイカツフ」とを関連付けて辞書7に登録する。また、辞書7に代えて、入力カナ文字列が格納されていたデータベースや辞書の該当部分を訂正済みカナ文字列で書き換えるようにしてもよい。   Assume that the confirmation candidate presenting unit 4a displays a confirmation screen as shown in FIG. 4 on the display unit. When the user selects a correction candidate and directly edits the input kana character string, the confirmation candidate presenting unit 4a replaces the confirmation candidate with the selected correction candidate in the kana character string, etc. “NC Cup” is created and passed to the dictionary registration unit 6. The dictionary registration unit 6 registers the corrected kana character string “New NC Cup” and the input kana character string “Nyu Ueno Ishii Katsuf” in the dictionary 7 in association with each other. Further, instead of the dictionary 7, the corresponding part of the database or dictionary in which the input kana character string is stored may be rewritten with the corrected kana character string.

[第3の実施の形態の効果]
本実施の形態によれば、音声合成装置用の辞書を容易に作成することができる。その理由は、訂正候補をユーザに提示すると共に、ユーザによって選択された提示候補を用いて入力カナ文字列を訂正した訂正カナ文字列を生成する確認候補提示部4aを備えているからである。
[Effect of the third embodiment]
According to the present embodiment, a dictionary for a speech synthesizer can be easily created. The reason is that it includes a confirmation candidate presenting unit 4a that presents a correction candidate to the user and generates a corrected kana character string obtained by correcting the input kana character string using the presentation candidate selected by the user.

本発明は、カナ文字列を入力とする音声合成装置用の辞書を作成する際などに利用すると好適である。   The present invention is preferably used when creating a dictionary for a speech synthesizer that receives a kana character string as an input.

1・・・カナ文字列入力部
2・・・正解表記判定部
3・・・確認候補抽出部
4、4a・・・確認候補提示部
5・・・記憶装置
51・・・正解表記判定ルール記憶部
52・・・確認候補抽出ルール記憶部
6・・・辞書登録部
7・・・辞書
DESCRIPTION OF SYMBOLS 1 ... Kana character string input part 2 ... Correct notation determination part 3 ... Confirmation candidate extraction part 4, 4a ... Confirmation candidate presentation part 5 ... Memory | storage device 51 ... Correct notation determination rule storage Unit 52 ... Confirmation candidate extraction rule storage unit 6 ... Dictionary registration unit 7 ... Dictionary

Claims (9)

入力文字列に特定の文字が含まれているか否かを判定する判定手段と、
前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段とを備えたことを特徴とする入力文字列誤り検出装置。
Determining means for determining whether or not a specific character is included in the input character string;
Only when the determination unit determines that the specific character is not included in the input character string, the detection unit includes a detection unit that detects a location where the specific character is missing from the input character string. An input character string error detecting device characterized by that.
請求項1記載の入力文字列誤り検出装置において、
前記特定の文字は、長音を表す文字であることを特徴とする入力文字列誤り検出装置。
The input character string error detection device according to claim 1,
The input character string error detecting device, wherein the specific character is a character representing a long sound.
請求項1記載の入力文字列誤り検出装置において、
前記特定の文字は、拗音を表す文字であることを特徴とする入力文字列誤り検出装置。
The input character string error detection device according to claim 1,
The input character string error detection device, wherein the specific character is a character representing stuttering.
請求項1記載の入力文字列誤り検出装置において、
前記特定の文字は、促音を表す文字であることを特徴とする入力文字列誤り検出装置。
The input character string error detection device according to claim 1,
The input character string error detecting device, wherein the specific character is a character representing a prompt sound.
請求項1記載の入力文字列誤り検出装置において、
前記特定の文字は、濁音および半濁音を表す文字であることを特徴とする入力文字列誤り検出装置。
The input character string error detection device according to claim 1,
The input character string error detecting device, wherein the specific character is a character representing a muddy sound and a semi-voiced sound.
請求項1乃至5の何れか1項に記載の入力文字列誤り検出装置において、
前記入力文字列と、前記検出手段で検出された箇所に対する訂正候補とをユーザに提示すると共に、ユーザによって選択された訂正候補によって前記入力文字列を訂正した訂正済み入力文字列を生成する提示手段と、
前記入力文字列と、前記訂正済み入力文字列とを関連付けて辞書に登録する登録手段とを備えたことを特徴とする入力文字列誤り検出装置。
In the input character string error detection device according to any one of claims 1 to 5,
Presenting means for presenting the input character string and a correction candidate for the portion detected by the detecting means to the user and generating a corrected input character string in which the input character string is corrected by the correction candidate selected by the user When,
An input character string error detecting apparatus comprising: a registration unit that registers the input character string and the corrected input character string in association with each other.
予め定められている複数の特定文字毎に、その特定文字が入力文字列に含まれているか否かを判定する判定手段と、
該判定手段で前記入力文字列に含まれていないと判定された特定文字に限って、該特定文字が欠落している箇所を前記入力文字列中から検出し、該検出した箇所毎に、その箇所を音声として聴いたときに聴き間違える度合い、または、違和感に応じた作業優先度を決定する検出手段と、
前記入力文字列と、前記検出手段で検出された箇所の内の、ユーザによって指定された作業優先度以上の作業優先度を有する箇所とを関連付けてユーザに提示する提示手段とを備えたことを特徴とする入力文字列誤り検出装置。
Determining means for determining whether or not the specific character is included in the input character string for each of the predetermined specific characters;
Only the specific characters that are determined not to be included in the input character string by the determining means, the location where the specific character is missing is detected from the input character string, and for each detected location, Detecting means for determining the degree of misunderstanding when listening to a part as sound, or the work priority according to the uncomfortable feeling;
A presentation unit that associates the input character string with a portion having a work priority that is equal to or higher than the work priority specified by the user among the portions detected by the detection unit; Characteristic input character string error detection device.
判定手段と、検出手段とを備えたコンピュータが実行する入力文字列誤り検出方法であって、
前記判定手段が、入力文字列に特定の文字が含まれているか否かを判定し、
前記検出手段が、前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出することを特徴とする入力文字列誤り検出方法。
An input character string error detection method executed by a computer including a determination unit and a detection unit,
The determination means determines whether or not the input character string includes a specific character;
Only when the determination means determines that the specific character is not included in the input character string, the detection means detects a location where the specific character is missing from the input character string. An input character string error detection method characterized by the above.
コンピュータを入力文字列誤り検出装置として機能させるためのプログラムであって、
前記コンピュータを、
入力文字列に特定の文字が含まれているか否かを判定する判定手段、
前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段として機能させるためのプログラム。
A program for causing a computer to function as an input character string error detection device,
The computer,
Determination means for determining whether or not a specific character is included in the input character string;
Only when the determination unit determines that the specific character is not included in the input character string, the input character string functions as a detection unit that detects a portion where the specific character is missing from the input character string. Program for.
JP2011177900A 2011-08-16 2011-08-16 Input character string error detection device Withdrawn JP2013041421A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011177900A JP2013041421A (en) 2011-08-16 2011-08-16 Input character string error detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011177900A JP2013041421A (en) 2011-08-16 2011-08-16 Input character string error detection device

Publications (1)

Publication Number Publication Date
JP2013041421A true JP2013041421A (en) 2013-02-28

Family

ID=47889757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011177900A Withdrawn JP2013041421A (en) 2011-08-16 2011-08-16 Input character string error detection device

Country Status (1)

Country Link
JP (1) JP2013041421A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170218A (en) * 2014-03-07 2015-09-28 富士通株式会社 Palatalized doubled consonant determination apparatus, palatalized doubled consonant determination method, and palatalized doubled consonant determination computer program
US9928828B2 (en) 2013-10-10 2018-03-27 Kabushiki Kaisha Toshiba Transliteration work support device, transliteration work support method, and computer program product

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9928828B2 (en) 2013-10-10 2018-03-27 Kabushiki Kaisha Toshiba Transliteration work support device, transliteration work support method, and computer program product
JP2015170218A (en) * 2014-03-07 2015-09-28 富士通株式会社 Palatalized doubled consonant determination apparatus, palatalized doubled consonant determination method, and palatalized doubled consonant determination computer program

Similar Documents

Publication Publication Date Title
US9582489B2 (en) Orthographic error correction using phonetic transcription
US9026426B2 (en) Input method editor
US20120166942A1 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
JP5997217B2 (en) A method to remove ambiguity of multiple readings in language conversion
US8994660B2 (en) Text correction processing
CN101815996A (en) Detect name entities and neologisms
JPH07325824A (en) Grammar checking system
US9747275B1 (en) Notification of potentially problematic textual messages
US11520987B2 (en) Automated document analysis comprising a user interface based on content types
JPH07325828A (en) Grammar checking system
US7801722B2 (en) Techniques for customization of phonetic schemes
US20120296647A1 (en) Information processing apparatus
WO2014205232A1 (en) Language input method editor to disambiguate ambiguous phrases via diacriticization
JP6678545B2 (en) Correction system, correction method and program
JP2013041421A (en) Input character string error detection device
JP5629543B2 (en) Character string conversion device, character string conversion method, computer program, and recording medium
US8438005B1 (en) Generating modified phonetic representations of indic words
JP7222218B2 (en) Document proofreading support system, document proofreading support device, document proofreading support method, and program
JP2008009507A (en) Method for representing pronunciation of foreign language in katakana
JP6244993B2 (en) Encouraging sound determination device, encouraging sound determination method, and encouraging sound determination computer program
KR101658598B1 (en) Korean-based chinese input apparatus and method using the roman phonetic alphabet
KR20200051170A (en) Electronic terminal device having a touch screen for performing a typing correction process on an input character and operating method thereof
WO2023073887A1 (en) Information processing system, information processing device, information processing method, and recording medium
JP4247849B2 (en) Name input device
JP5069194B2 (en) Error notation detection device, error notation generation device, methods thereof, program, and recording medium

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20141104