JP2016045467A - Utterance evaluation device, utterance evaluation method and program - Google Patents
Utterance evaluation device, utterance evaluation method and program Download PDFInfo
- Publication number
- JP2016045467A JP2016045467A JP2014171913A JP2014171913A JP2016045467A JP 2016045467 A JP2016045467 A JP 2016045467A JP 2014171913 A JP2014171913 A JP 2014171913A JP 2014171913 A JP2014171913 A JP 2014171913A JP 2016045467 A JP2016045467 A JP 2016045467A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- reading
- language model
- pronunciation dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、発話評価装置、発話評価方法、及びプログラムに関する。 The present invention relates to an utterance evaluation device, an utterance evaluation method, and a program.
人間の発話音声の善し悪しを自動評定する技術がある(例えば、特許文献1参照)。この技術では、予めネイティブ話者の発話から生成しておいた音響モデル、言語モデル、及び音素継続長モデルに基づいて、発話音声の音声データから、例えば発話の発音、発話速度、発話の流暢さなど、発音に関連し得る特徴量を抽出する。そして、抽出された特徴量に基づいて、文単位・単語単位で発音を評価する。 There is a technique for automatically evaluating the quality of human speech (see, for example, Patent Document 1). In this technology, based on an acoustic model, a language model, and a phoneme duration model generated in advance from a native speaker's utterance, for example, utterance pronunciation, utterance speed, fluency of utterance from speech data For example, feature quantities that can be related to pronunciation are extracted. Then, the pronunciation is evaluated in sentence units and word units based on the extracted feature values.
従来の発話評価装置では、発話すべき文章(正解文)をもとに発音の評価を行う。そのため、正解文と全く同じ文章を発話しなければ、発音を評価することができない。また、正解文のネイティブ話者の発話がないと評価を行うことができない。さらには、従来技術は発音に関する評価であり、正解文に対して発話者の発音が悪いのか、発話者が読み間違えたのか評価するものではない。音声認識処理においても、読み間違いの認識が可能なモデルはなかった。 In a conventional utterance evaluation device, pronunciation is evaluated based on a sentence to be uttered (correct sentence). Therefore, pronunciation cannot be evaluated unless the same sentence as the correct sentence is spoken. In addition, the evaluation cannot be performed without the utterance of the correct native speaker. Furthermore, the related art is an evaluation related to pronunciation, and does not evaluate whether the speaker's pronunciation is bad for the correct sentence or whether the speaker has mistaken reading. In the speech recognition process, there was no model that could recognize misreading.
本発明は、このような事情を考慮してなされたもので、発話に読み間違いがあるかを評価することができる発話評価装置、発話評価方法、及びプログラムを提供する。 The present invention has been made in view of such circumstances, and provides an utterance evaluation apparatus, an utterance evaluation method, and a program that can evaluate whether or not there is a reading error in an utterance.
本発明の一態様は、単語と前記単語の読みとを対応付けた発音辞書を記憶する発音辞書記憶部と、単語同士のつながり易さを表す言語モデルを記憶する言語モデル記憶部と、テキストデータから取得した文を構成する単語のうち漢字を含んだ前記単語を処理対象単語とし、前記処理対象単語に含まれる前記漢字が取り得る読みに基づいて前記処理対象単語の読み間違いの読み方を生成する読み間違い生成部と、読み間違いを示す識別情報を付加した前記処理対象単語と、前記処理対象単語に対して前記読み間違い生成部が生成した前記読み間違いの読み方とを対応付けて登録することにより前記発音辞書を更新する発音辞書更新部と、前記テキストデータから単語同士のつながりを取得し、取得した前記単語同士のつながりに含まれる前記処理対象単語に前記識別情報を付加して生成した単語同士のつながりと、生成した前記単語同士のつながりに付与した所定の出現頻度とに基づいて前記言語モデルを更新する言語モデル更新部と、前記発音辞書更新部が更新した前記発音辞書及び前記言語モデル更新部が更新した前記言語モデルに基づいて音声データを音声認識する認識処理部と、前記認識処理部による音声認識の結果に前記識別情報が付加された単語が含まれる場合に、読み間違いを出力する出力部と、を備えることを特徴とする発話評価装置である。
この発明によれば、発話評価装置は、テキストデータから取得した文を構成する単語のうち、漢字を含んだ単語を処理対象単語として読み間違いの読み方を生成し、識別情報を付加した処理対象単語と読み間違いの読み方とを対応付けて発音辞書に登録する。発話評価装置は、テキストデータから単語同士のつながりを取得すると、取得した単語同士のつながりに含まれる処理対象単語に識別情報を付加して読み間違いの読み方が付与された単語を含んだ単語同士のつながりを生成し、所定の出現頻度を付与する。発話評価装置は、生成した単語同士のつながりと、付与した出現頻度とに基づいて言語モデルを更新する。発話評価装置は、更新された発音辞書及び言語モデルに基づいて音声データを音声認識し、音声認識結果に識別情報が付加された単語が含まれる場合に、読み間違いを出力する。
これにより、発話評価装置は、音声データが示す発話に読み間違いがあった場合に、読み間違いを通知することができる。
One aspect of the present invention is a pronunciation dictionary storage unit that stores a pronunciation dictionary in which a word and a reading of the word are associated with each other, a language model storage unit that stores a language model representing the ease of connection between words, and text data Among the words constituting the sentence acquired from the above, the word including kanji is set as a processing target word, and a reading error of the processing target word is generated based on a reading that can be taken by the kanji included in the processing target word By registering the reading error generation unit, the processing target word to which identification information indicating a reading error is added, and the reading error generated by the reading error generation unit with respect to the processing target word in association with each other A pronunciation dictionary updating unit that updates the pronunciation dictionary; and a connection between words from the text data, and the processing included in the acquired connection between the words A language model updating unit that updates the language model based on a connection between words generated by adding the identification information to a target word and a predetermined appearance frequency assigned to the generated connection between the words; and the pronunciation A recognition processing unit that recognizes speech data based on the pronunciation dictionary updated by the dictionary update unit and the language model updated by the language model update unit, and the identification information is added to the result of speech recognition by the recognition processing unit An utterance evaluation apparatus comprising: an output unit that outputs a reading error when a recorded word is included.
According to this invention, the utterance evaluation device generates a reading error by using a word including a kanji as a processing target word among words constituting a sentence acquired from text data, and adds the identification information to the processing target word. Are registered in the pronunciation dictionary in association with reading mistakes. When the utterance evaluation device acquires the connection between words from the text data, the utterance evaluation device adds identification information to the processing target word included in the acquired connection between words and adds words to each other that include a word that has been given a reading error. A connection is generated and given frequency of appearance is given. The utterance evaluation device updates the language model based on the generated connection between the words and the given appearance frequency. The utterance evaluation device recognizes speech data based on the updated pronunciation dictionary and language model, and outputs a reading error when the speech recognition result includes a word with identification information added.
Thereby, the utterance evaluation apparatus can notify a reading error when there is a reading error in the utterance indicated by the voice data.
本発明の一態様は、上述する発話評価装置であって、前記読み間違い生成部は、前記テキストデータから取得した文を構成する単語のうち漢字を含んだ所定の品詞の前記単語を前記処理対象単語とする、ことを特徴とする。
この発明によれば、発話評価装置は、テキストデータが示す文を構成する漢字を含んだ単語のうち、所定の品詞の単語に読み間違いを付与する。
これにより、発話評価装置は、所定の品詞の単語についての読み間違いを検出することができる。
One aspect of the present invention is the utterance evaluation device described above, wherein the reading error generation unit is configured to process the word having a predetermined part-of-speech including a kanji among words constituting a sentence acquired from the text data. It is characterized by being a word.
According to this invention, the utterance evaluation device gives a reading error to a word having a predetermined part-of-speech word among words including kanji constituting the sentence indicated by the text data.
Thereby, the utterance evaluation apparatus can detect a reading error for a word having a predetermined part of speech.
本発明の一態様は、上述する発話評価装置であって、前記言語モデル更新部は、生成した前記単語同士のつながりに、前記識別情報を付加する前の前記単語同士のつながりについて前記テキストデータから算出した出現頻度に基づく出現頻度を付与する、ことを特徴とする。
この発明によれば、発話評価装置は、読み間違いの単語の出現頻度を、正しい読みの単語の出現頻度に基づいて設定する。
これにより、発話評価装置は、実際の読み間違いの単語の出現確率が低い場合でも、発話を音声認識する際に読み間違いの単語を認識しやすくすることができる。
One aspect of the present invention is the utterance evaluation device described above, wherein the language model update unit uses the text data for the connection between the words before adding the identification information to the generated connection between the words. An appearance frequency based on the calculated appearance frequency is assigned.
According to this invention, the utterance evaluation device sets the appearance frequency of a misread word based on the appearance frequency of a correctly read word.
As a result, the utterance evaluation device can make it easier to recognize misread words when speech recognition of utterances is performed even when the appearance probability of actual misread words is low.
本発明の一態様は、発話評価装置が実行する発話評価方法であって、テキストデータから取得した文を構成する単語のうち漢字を含んだ前記単語を処理対象単語とし、前記処理対象単語に含まれる前記漢字が取り得る読みに基づいて前記処理対象単語の読み間違いの読み方を生成する読み間違い生成ステップと、単語と前記単語の読みとを対応付けた発音辞書に、読み間違いを示す識別情報を付加した前記処理対象単語と、前記処理対象単語に対して前記読み間違い生成ステップにおいて生成された前記読み間違いの読み方とを対応付けて登録することにより、前記発音辞書を更新する発音辞書更新ステップと、前記テキストデータから単語同士のつながりを取得し、取得した前記単語同士のつながりに含まれる前記処理対象単語に前記識別情報を付加して生成した単語同士のつながりと、生成した前記単語同士のつながりに付与した所定の出現頻度とに基づいて、単語同士のつながり易さを表す言語モデルを更新する言語モデル更新ステップと、前記発音辞書更新ステップにおいて更新した前記発音辞書及び前記言語モデル更新ステップにおいて更新した前記言語モデルに基づいて音声データを音声認識する認識処理ステップと、前記認識処理ステップにおける音声認識の結果に前記識別情報が付加された単語が含まれる場合に、読み間違いを出力する出力ステップと、を有することを特徴とする発話評価方法である。 One aspect of the present invention is an utterance evaluation method executed by an utterance evaluation apparatus, wherein the word including kanji among words constituting a sentence acquired from text data is set as a processing target word, and is included in the processing target word A reading error generation step for generating a reading error of the word to be processed based on a reading that can be taken by the kanji, and a pronunciation dictionary in which the word and the reading of the word are associated with each other. A pronunciation dictionary updating step for updating the pronunciation dictionary by registering the added processing target word and the reading mistake generated in the reading error generation step in association with the processing target word; , Acquiring a connection between words from the text data, and identifying the processing target word included in the acquired connection between the words A language model update step for updating a language model representing the ease of connection between words based on the connection between words generated by adding a report and the predetermined appearance frequency assigned to the generated connection between the words; Recognition processing step for recognizing speech data based on the pronunciation dictionary updated in the pronunciation dictionary update step and the language model updated in the language model update step, and the identification in the result of speech recognition in the recognition processing step An utterance evaluation method comprising: an output step of outputting a reading error when a word to which information is added is included.
本発明の一態様は、コンピュータを、単語と前記単語の読みとを対応付けた発音辞書を記憶する発音辞書記憶手段と、単語同士のつながり易さを表す言語モデルを記憶する言語モデル記憶手段と、テキストデータから取得した文を構成する単語のうち漢字を含んだ前記単語を処理対象単語とし、前記処理対象単語に含まれる前記漢字が取り得る読みに基づいて前記処理対象単語の読み間違いの読み方を生成する読み間違い生成手段と、読み間違いを示す識別情報を付加した前記処理対象単語と、前記処理対象単語に対して前記読み間違い生成手段が生成した前記読み間違いの読み方とを対応付けて登録することにより前記発音辞書を更新する発音辞書更新手段と、前記テキストデータから単語同士のつながりを取得し、取得した前記単語同士のつながりに含まれる前記処理対象単語に前記識別情報を付加して生成した単語同士のつながりと、生成した前記単語同士のつながりに付与した所定の出現頻度とに基づいて前記言語モデルを更新する言語モデル更新手段と、前記発音辞書更新手段が更新した前記発音辞書及び前記言語モデル更新手段が更新した前記言語モデルに基づいて音声データを音声認識する認識処理手段と、前記認識処理手段による音声認識の結果に前記識別情報が付加された単語が含まれる場合に、読み間違いを出力する出力手段と、を具備する発話評価装置として機能させるためのプログラムである。 According to one aspect of the present invention, a computer stores a pronunciation dictionary storage unit that stores a pronunciation dictionary in which a word and a reading of the word are associated with each other, and a language model storage unit that stores a language model that indicates the ease of connection between words. The word including kanji in the words constituting the sentence acquired from the text data is set as the processing target word, and the reading error of the processing target word is read based on the reading that the kanji included in the processing target word can take. A registration error generation unit that generates identification error information, a processing target word to which identification information indicating a reading error is added, and a reading method of the reading error generated by the reading error generation unit with respect to the processing target word. The pronunciation dictionary updating means for updating the pronunciation dictionary by acquiring the connection between words from the text data, and the acquired words A language model that updates the language model based on a connection between words generated by adding the identification information to the processing target word included in a connection and a predetermined appearance frequency assigned to the generated connection between the words Updating means, recognition processing means for recognizing speech data based on the pronunciation dictionary updated by the pronunciation dictionary updating means and the language model updated by the language model updating means, and a result of speech recognition by the recognition processing means Is a program for functioning as an utterance evaluation apparatus comprising: an output means for outputting a reading error when the identification information is added to a word.
本発明によれば、発話に読み間違いがあるかを評価することができる。 According to the present invention, it is possible to evaluate whether an utterance has a reading error.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本発明の一実施形態による発話評価装置は、学習用のテキストデータに読み間違いを付与し、付与した読み間違いに基づいて音声認識に用いるモデルを適応化することにより、発話に含まれる読み間違いを認識可能とする。これにより、本実施形態の発話評価装置は、音声認識結果に読み間違いがあるかを評価することができる。例えば、本実施形態の発話評価装置は、アナウンサーや役者等が、台本などのあらかじめ決まった文章を読む際に、音声認識技術を用いて自動的に読み間違いを指摘する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
An utterance evaluation apparatus according to an embodiment of the present invention assigns a reading error to learning text data, and adapts a model used for speech recognition based on the given reading error, thereby detecting a reading error included in the utterance. Make it recognizable. Thereby, the utterance evaluation apparatus of this embodiment can evaluate whether there is a reading error in the speech recognition result. For example, the speech evaluation apparatus according to the present embodiment automatically points out a reading error using a voice recognition technology when an announcer, an actor, or the like reads a predetermined sentence such as a script.
図1は、本発明の一実施形態による発話評価装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。発話評価装置1は、コンピュータ装置により実現することができる。同図に示すように、発話評価装置1は、音響モデル記憶部11、発音辞書記憶部12、言語モデル記憶部13、ユーザーインターフェース制御部14、テキストデータ取得部15、更新部16、音声データ取得部17、音響特徴量抽出部18、及び認識処理部19を備えて構成される。
FIG. 1 is a functional block diagram showing a configuration of an
音響モデル記憶部11は、音響モデルを記憶する。音響モデルは、音素とその音素の音響特徴量とを対応付けたデータである。本実施形態では、音響モデルとして、音響特徴量と音素との間の統計的関係を表すHMM(Hidden Markov Model、隠れマルコフモデル)音響モデルを用いる。発音辞書記憶部12は、発音辞書を記憶する。発音辞書は、単語と読みの対応付けを表すデータである。本実施形態では、発音辞書として、文字や語と、それらの読みの音素との関係を表すデータを用いる。言語モデル記憶部13は、言語モデルを記憶する。言語モデルは、単語同士のつながり易さを表すデータである。本実施形態では、言語モデルとして、言語のn個の要素(文字や語)が出現する順序の統計的確率を表すn−gram言語モデルを使用する。
The acoustic
ユーザーインターフェース制御部14は、情報を出力する出力部の一例であり、ディスプレイなどの表示装置に画面を表示させる。テキストデータ取得部15は、テキストデータを取得する。
更新部16は、読み間違い生成部161、発音辞書更新部162、及び言語モデル更新部163を備える。読み間違い生成部161は、テキストデータから文を取得し、取得した文を構成する単語に漢字を含んだ所定の品詞の単語がある場合、その単語に読み間違いの読み方を付与する。発音辞書更新部162は、読み間違い生成部161が付与した読み間違いの読み方に基づいて、発音辞書記憶部12に記憶されている発音辞書を更新する。言語モデル更新部163は、テキストデータから取得した文からn−gramとその出現頻度を得ると、得られたn−gramに含まれる正しい読みの単語を、読み間違い生成部161が読み間違いを付与した単語に置き換えたn−gramを生成する。言語モデル更新部163は、読み間違いを付与した単語に置き換えて生成したn−gramに、読み間違いを付与した単語に置き換える前のn−gramの出現頻度に基づく出現頻度を付与する。言語モデル更新部163は、生成したn−gramと付与した出現頻度とに基づいて、言語モデル記憶部13に記憶されている言語モデルを更新する。
The user
The
音声データ取得部17は、発話の音声データを取得する。音響特徴量抽出部18は、音声データ取得部17から取得した音声データから音響特徴量を抽出する。認識処理部19は、音響モデル記憶部11に記憶されている音響モデル、発音辞書記憶部12に記憶されている更新後の発音辞書及び言語モデル記憶部13に記憶されている更新後の言語モデル、及び音響特徴量抽出部18が抽出した音響特徴量を用いて音声データの音声認識を行う。認識処理部19は、音声認識結果を設定した認識結果データをユーザーインターフェース制御部14に出力する。ユーザーインターフェース制御部14は、認識結果データに読み間違いの単語が含まれている場合、読み間違いであることを通知する情報を表示装置に表示させる。
The voice
図2は、発話評価装置1の全体処理を示すフローチャートである。
まず、発話評価装置1のテキストデータ取得部15は、テキストデータを取得する。更新部16は、テキストデータ取得部15が取得したテキストデータから文を取得し、取得した文を構成する単語に漢字が含まれる所定の品詞の単語が含まれている場合、その単語に読み間違いを付与する。更新部16は、付与した読み間違いの読み方に基づいて発音辞書記憶部12に記憶されている発音辞書及び言語モデル記憶部13に記憶されている言語モデルを更新する(ステップS105)。更新部16は、読み間違いの読み方に対応付けられる単語には読み間違いの単語であることを表す識別情報を付与して発音辞書に登録する。また、更新部16は、テキストデータに含まれる文からn−gramを取得する。更新部16は、取得したn−gramを構成する単語に読み間違いの読み方を付与した元の単語が含まれる場合、その単語に読み間違いの識別情報を付与することにより、正しい読みの単語を読み間違いの単語に置き換えたn−gramを生成する。更新部16は、読み間違いの単語を含んだn−gramにより言語モデルを更新する。なお、更新部16は、読み間違いの単語を含んだn−gramについては、そのn−gramを生成する元となった、正しい単語を含んだn−gramに基づく出現頻度を付与する。
FIG. 2 is a flowchart showing the overall processing of the
First, the text
発音辞書及び言語モデルの更新後、音声データ取得部17は入力された音声データを取得する。音響特徴量抽出部18は、音声データ取得部17が取得した音声データから音響特徴量を抽出する。認識処理部19は、音響特徴量抽出部18が抽出した音響特徴量と、音響モデル記憶部11に記憶されている音響モデルと、ステップS105において更新された発音辞書及び言語モデルとを用いて、入力された音声データを音声認識する。認識処理部19は、音声認識結果を設定した認識結果データをユーザーインターフェース制御部14に出力する。ユーザーインターフェース制御部14は、認識結果データに識別情報が付与された読み間違いの単語が含まれている場合、読み間違いであることを通知する情報を表示装置に表示させる(ステップS110)。
After updating the pronunciation dictionary and the language model, the voice
図3は、発話評価装置1の発音辞書及び言語モデル更新処理を示すフローチャートである。同図は、図2のステップS105における発音辞書及び言語モデルの更新処理の詳細を示す。
まず、ユーザーインターフェース制御部14は、台本や原稿などのテキストデータを入力するための画面を表示装置に表示させる。テキストデータ取得部15は、キーボード入力やファイル入力等を行う入力手段(図示せず)により入力されたテキストデータを取得し、更新部16に出力する(ステップS205)。更新部16は、ステップS210からステップS250の処理により、入力されたテキストデータを元に、発音辞書の更新を行う。
FIG. 3 is a flowchart showing the pronunciation dictionary and language model update processing of the
First, the user
更新部16の読み間違い生成部161は、テキストデータにまだ取得していない文がある場合(ステップS210:NO)、テキストデータからまだ取得していない1文を取得する(ステップS215)。読み間違い生成部161は、ステップS215において取得した文を形態素解析し、文を単語に分割するとともにその単語の品詞を取得する(ステップS220)。読み間違い生成部161は、形態素解析の結果、ステップS215において取得した文から単語を取得できないと判断した場合(ステップS225:NO)、ステップS210からの処理を繰り返す。
When there is a sentence that has not yet been acquired in the text data (step S210: NO), the reading
読み間違い生成部161は、ステップS215において取得した文から単語を取得できると判断した場合(ステップS225:YES)、その文に名詞の単語が含まれるかを判断する(ステップS230)。読み間違い生成部161は、取得した文に名詞の単語が含まれていないと判断した場合(ステップS230:NO)、ステップS210からの処理を繰り返す。
If the reading
読み間違い生成部161は、取得した文に名詞の単語が含まれていると判断した場合(ステップS230:YES)、その名詞を1文字ずつに分解する(ステップS235)。読み間違い生成部161は、名詞を分解して得られた文字の中に漢字が含まれていないと判断した場合(ステップS240:NO)、ステップS210からの処理を繰り返す。
If the reading
一方、読み間違い生成部161は、名詞を分解して得られた文字の中に漢字が含まれていると判断した場合(ステップS240:YES)、漢字が含まれる名詞に読み間違いの読み方を付与する(ステップS245)。以下では、漢字が含まれる名詞の単語を「処理対象単語」と記載する。
On the other hand, if the
例えば、予め発話評価装置1が内部または外部に備える図示しない記憶部(あるいは、発音辞書記憶部12)に、各漢字の音読み及び訓読みのデータを格納しておく。これらの音読み及び訓読みのデータは、音素で表したデータであってもよい。読み間違い生成部161は、処理対象単語に含まれる漢字の音読みと訓読みのデータを記憶部から読み出すことにより、その漢字の読み方を得る。読み間違い生成部161は、処理対象単語それぞれについて、その処理対象単語に含まれる漢字の読みを用いて、以下のように読み間違いの読み方を作成する。
For example, the phonetic reading and knot reading data of each kanji are stored in advance in a storage unit (or pronunciation dictionary storage unit 12) (not shown) provided inside or outside of the
すなわち、読み間違い生成部161は、処理対象単語に含まれる漢字について得た読み方の全ての組み合わせを作成し、その処理対象単語の読み方とする。読み間違い生成部161は、処理対象単語の正しい読み方を、発音辞書記憶部12に記憶されている発音辞書から読み出す。読み間違い生成部161は、処理対象単語について生成した読み方のうち、正しい読み方以外を読み間違いとする。
That is, the
例えば「象潟」という名詞の場合、「象」の読み方として音読み「しょう」、「ぞう」及び訓読み「かたち」、「かたど(る)」が読み出され、「潟」の読み方として音読み「せき」及び訓読み「かた」が読み出される。読み間違い生成部161は、「象」の読み方と「潟」の読み方との全ての組み合わせから「しょうせき」、「しょうかた」、「ぞうせき」、「ぞうかた」、…を「象潟」の読み方として作成する。読み間違い生成部161は、発音辞書記憶部12に記憶されている発音辞書から読み出した「象潟」の正しい読み「きさかた」以外の読み方を読み間違いとする。
For example, in the case of the noun “Kigata”, the readings of “Elephant” are “Sho”, “Elephant”, “Kun” and “Katado”, and “Seki” is read as “Kata”. And the cautionary reading “how” is read out. The
発音辞書更新部162は、ステップS245において読み間違い生成部161が作成した各処理対象単語の読み間違いを発音辞書に追加登録する(ステップS250)。発音辞書更新部162は、発音辞書に処理対象単語とその処理対象単語の読み間違いの読み方の音素とを対応付けて発音辞書に登録する際、処理対象単語には読み間違いを示す識別情報を付与する。例えば、単語「象潟」と読み間違い「しょうせき」とを対応付けて登録する際、単語「象潟」には識別情報を付加する。本実施形態では、識別情報として単語に「※」を付加し、読み間違いの単語であることを表す。例えば、単語「象潟」から生成された読み間違いの単語は「※象潟」となる。なお、発音辞書に正解の読み方と対応づけて元から登録されている単語には識別情報は付与しない。
The pronunciation
発音辞書に登録された読み間違いの単語は、言語モデルの学習データには通常は含まれていない。従って、言語モデルにおいては、読み間違いの単語に出現確率0%などの低いが付与される。この場合、音声認識において読み間違いの単語を認識結果として得ることは難しい。そこで、次に、ステップS255〜ステップS280の処理により、言語モデル更新部163は、読み間違いの単語を用いたn−gramに、実際よりも高い出現頻度を与え、言語モデルに追加する。本実施形態では、正しい読み方と同様の出現確率で、読み間違いが発生すると仮定し、言語モデルの読み間違いへの適応を行う。
Misread words registered in the pronunciation dictionary are usually not included in the language model learning data. Therefore, in the language model, words with a low appearance probability such as 0% are assigned to misread words. In this case, it is difficult to obtain a misread word as a recognition result in speech recognition. Therefore, next, through the processing from step S255 to step S280, the language
言語モデル更新部163は、言語モデル更新のため、テキストデータ取得部15が取得したテキストデータに含まれる文に基づいて、n単語の連鎖であるn−gramを取得するとともに、そのn−gramの出現頻度を算出する(ステップS255)。言語モデル更新部163は、取得したn−gramを全て取り出していない場合(ステップS260:NO)、まだ取り出していないn−gramを1つ取り出す(ステップS265)。言語モデル更新部163は、取り出したn−gramに読み間違いの単語の生成元となった単語が含まれていないと判断した場合(ステップS270:NO)、ステップS260からの処理を繰り返す。
The language
言語モデル更新部163は、ステップS265において取り出したn−gramに、読み間違いの単語の生成元となった単語が含まれていると判断した場合(ステップS270:NO)、読み間違いの単語を含んだn−gramを作成する(ステップS275)。具体的には、言語モデル更新部163は、取り出したn−gramを構成する単語のうち、読み間違いの単語の生成元となった単語に、読み間違いを表す識別情報を付加して新たなn−gramを作成する。言語モデル更新部163は、識別情報が付加された読み間違いの単語の出現頻度には、例えば、読み間違いの単語の生成元となった単語と同じ出現頻度、あるいは、その出現頻度に所定の演算を行って得られた出現頻度を付与する。例えば、n=2、ステップS265において取り出したn−gramが「象潟」→「の」(出現頻度a)である場合、言語モデル更新部163は、「象潟」に識別情報を付加してn−gram「※象潟」→「の」(出現頻度a)を生成する。言語モデル更新部163は、ステップS260からの処理を繰り返す。
If the language
そして、言語モデル更新部163は、ステップS255において取得したn−gramを全て取り出したと判断する(ステップS260:YES)。言語モデル更新部163は、ステップS255において取得したn−gramと、ステップS275において生成したn−gramとを用いて、言語モデル記憶部13に記憶されている言語モデルを、従来技術と同様に更新する。
Then, the language
なお、言語モデル更新部163は、テキストデータから取り出されたn−gramを構成する単語に読み間違いを表す識別情報を付加して新たなn−gramを作成する際、予め決められた出現頻度を付与してもよい。
Note that the language
図4は、発話評価装置1の読み間違い指摘処理を示すフローチャートである。同図は、図2のステップS110における読み間違い指摘処理の詳細を示す。
音声データ取得部17は、音声データの入力待ちである(ステップS305:NO)。発話評価装置1に発話の音声データが入力されると、音声データ取得部17は、入力された音声データを取得する(ステップS305:YES)。発話は、図3のステップS205において取得したテキストデータが示す台本や原稿などを読んだ発話でもよく、それ以外の文章を読んだ発話でもよい。
FIG. 4 is a flowchart showing a misreading indication process of the
The voice
音響特徴量抽出部18は、音声データ取得部17が取得した音声データから、音響特徴量を抽出する。認識処理部19は、音響特徴量抽出部18から読み出した音響特徴量と、音響モデル、発音辞書、及び言語モデルを用いて、従来技術と同様に音声認識処理を行う。すなわち、音響特徴量抽出部18が抽出した時系列の音響特徴量と、音響モデル記憶部11に記憶されている音響モデルとを照合して音素系列を得る。認識処理部19は、得られた音素系列における音素の並びと、発音辞書記憶部12に記憶されている発音辞書とを照合して、音素系列に対応する単語列を得る。認識処理部19は、言語モデル記憶部13に記憶されている言語モデルを用いて、得られた単語列の出現確率を得る。認識処理部19は、もっとも出現確率の高い単語列を音声認識結果として設定した認識結果データをユーザーインターフェース制御部14に出力する(ステップS310)。
The acoustic feature
ユーザーインターフェース制御部14は、認識処理部19から受信した認識結果データが示す単語列に識別情報が付加された単語が含まれているかを判断する(ステップS315)。ユーザーインターフェース制御部14が、認識結果データが示す音声認識結果に識別情報が付加された単語が含まれていないと判断した場合(ステップS315:NO)、発話評価装置は、ステップS305からの処理を繰り返す。ユーザーインターフェース制御部14が、認識結果データが示す音声認識結果に識別情報が付加された単語が含まれていないと判断した場合(ステップS315:NO)、発話評価装置は、ステップS305からの処理を繰り返す。一方、ユーザーインターフェース制御部14は、認識結果データが示す音声認識結果に識別情報が付加された単語が含まれていると判断した場合(ステップS315:YES)、読み間違いを表示装置に表示させるなどして通知し、ユーザに警告する(ステップS320)。発話評価装置1は、ステップS305からの処理を繰り返す。
The user
図5は、発話評価装置1のユーザーインターフェース制御部14が表示装置に表示させる読み間違い指摘画面である。同図に示すように、ユーザーインターフェース制御部14は、認識処理部19が出力した認識結果データが示す音声認識結果を表示させるとともに、音声認識結果に読み間違いの単語が含まれる場合、その読み間違いの単語が含まれる文を表示させる。同図では、読み間違いの単語が含まれるとして検出された文のうち、最後の文(読み間違い文章)と、それより前の文(読み間違い履歴)が表示されている。
FIG. 5 is a reading error indication screen displayed on the display device by the user
上述したように、発話評価装置1は、学習用テキストデータから、読み間違いが起こりうる単語を抽出し、その単語の表記を変更した上で読み間違いの読み方(読み間違い候補発音列)を付与して発音辞書に追加登録する。さらに、発話評価装置1は、テキストデータから抽出したn−gramを構成する単語を、読み間違いの読み方を付与した単語に置き換えたn−gramを追加生成し、言語モデルを更新する。これにより、発話評価装置1は、発話に読み間違いが含まれていた際に、変更した表記の単語を出力する。従って、学習用テキストデータに含まれていた単語が正しい読みで発話されなかった場合に、読み間違いの検出が可能となる。また、特定の話者の発話を学習データとして用いないため、様々な発話に対して読み間違いを検出することができる。
As described above, the
以上説明した発話評価装置1は、例えば、原稿や台本、教科書といったあらかじめ読む内容の決まったものに対して、話者の読み間違いを自動で指摘することが可能となる。例えば、発話評価装置1は、原稿を学習用テキストデータに用いて予め発音辞書及び言語モデルを更新したのち、その原稿を声に出して読む。発話評価装置1は、読み間違いがあった時には、その旨を表示する。これにより、放送現場や舞台現場などで下読みの際に、自分の読み方に誤りがないかを確認したり、教育現場で学生が予習の段階で音読に誤りがないか事前に確認したりすることができ、正しい情報の送出やスムーズな仕事・授業につながる。
The
言葉を扱う職業では、読み間違いをなくすことは大きな課題である。例えば、アナウンサーは、読み間違いやすい単語の単語集を保持しており、読み間違いを如何に少なくするかは重大な関心事である。そこで、本実施形態の発話評価装置を用いることによって、事前に読み間違いを発見することができ、正しい情報を放送することにつながる。
また、アナウンサーの読み間違い同様に、役者の台本の読み間違いについても、本実施形態の発話評価装置を用いて事前に練習を行うことで、スムーズな稽古や収録を行うことが可能となる。
また、教育現場において、国語の音読は欠かすことのできない教育方法である。その際、本実施形態の発話評価装置をゲーム感覚で用いることによって、簡易な漢字の読み間違いによる授業進行の遅れや、生徒自身の読み間違いによる羞恥心を軽減することができる。
In a language-oriented profession, eliminating misreading is a major challenge. For example, an announcer maintains a word collection of easily misread words, and how to reduce misreading is a serious concern. Therefore, by using the utterance evaluation apparatus of the present embodiment, it is possible to discover reading mistakes in advance, leading to broadcasting correct information.
In addition to the misreading of the announcer, the reading of the actor's script can be practiced and recorded smoothly by practicing in advance using the speech evaluation apparatus of the present embodiment.
In addition, reading aloud in Japanese is an indispensable educational method in educational settings. At that time, by using the utterance evaluation apparatus of the present embodiment as if it were a game, it is possible to reduce the delay in the course progression due to a simple reading error of kanji and the shame caused by the student's reading error.
なお、上述の発話評価装置1は、内部にコンピュータシステムを有している。そして、発話評価装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
The
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
1 発話評価装置
11 音響モデル記憶部
12 発音辞書記憶部
13 言語モデル記憶部
14 ユーザーインターフェース制御部
15 テキストデータ取得部
16 更新部
17 音声データ取得部
18 音響特徴量抽出部
19 認識処理部
161 読み間違い生成部
162 発音辞書更新部
163 言語モデル更新部
DESCRIPTION OF
Claims (5)
単語同士のつながり易さを表す言語モデルを記憶する言語モデル記憶部と、
テキストデータから取得した文を構成する単語のうち漢字を含んだ前記単語を処理対象単語とし、前記処理対象単語に含まれる前記漢字が取り得る読みに基づいて前記処理対象単語の読み間違いの読み方を生成する読み間違い生成部と、
読み間違いを示す識別情報を付加した前記処理対象単語と、前記処理対象単語に対して前記読み間違い生成部が生成した前記読み間違いの読み方とを対応付けて登録することにより前記発音辞書を更新する発音辞書更新部と、
前記テキストデータから単語同士のつながりを取得し、取得した前記単語同士のつながりに含まれる前記処理対象単語に前記識別情報を付加して生成した単語同士のつながりと、生成した前記単語同士のつながりに付与した所定の出現頻度とに基づいて前記言語モデルを更新する言語モデル更新部と、
前記発音辞書更新部が更新した前記発音辞書及び前記言語モデル更新部が更新した前記言語モデルに基づいて音声データを音声認識する認識処理部と、
前記認識処理部による音声認識の結果に前記識別情報が付加された単語が含まれる場合に、読み間違いを出力する出力部と、
を備えることを特徴とする発話評価装置。 A pronunciation dictionary storage unit that stores a pronunciation dictionary in which a word and a reading of the word are associated;
A language model storage unit for storing a language model representing the ease of connection between words;
Of the words constituting the sentence acquired from the text data, the word including the kanji is set as the processing target word, and the reading of the processing target word is read based on the reading that the kanji included in the processing target word can take. A reading error generation section to generate,
The pronunciation dictionary is updated by associating and registering the processing target word to which identification information indicating a reading error is added and the reading error generated by the reading error generation unit with respect to the processing target word. Pronunciation dictionary update part,
A connection between words is acquired from the text data, and a connection between words generated by adding the identification information to the processing target word included in the acquired connection between words and a connection between the generated words A language model update unit that updates the language model based on the given frequency of appearance;
A recognition processing unit that recognizes speech data based on the pronunciation dictionary updated by the pronunciation dictionary update unit and the language model updated by the language model update unit;
An output unit that outputs a reading error when a word to which the identification information is added is included in a result of speech recognition by the recognition processing unit;
An utterance evaluation apparatus comprising:
ことを特徴とする請求項1に記載の発話評価装置。 The misreading generation unit sets the word of a predetermined part-of-speech including the kanji among the words constituting the sentence acquired from the text data as the processing target word.
The utterance evaluation apparatus according to claim 1.
ことを特徴とする請求項1または請求項2に記載の発話評価装置。 The language model update unit gives an appearance frequency based on the appearance frequency calculated from the text data for the connection between the words before adding the identification information to the generated connection between the words,
The utterance evaluation apparatus according to claim 1 or 2, characterized by the above.
テキストデータから取得した文を構成する単語のうち漢字を含んだ前記単語を処理対象単語とし、前記処理対象単語に含まれる前記漢字が取り得る読みに基づいて前記処理対象単語の読み間違いの読み方を生成する読み間違い生成ステップと、
単語と前記単語の読みとを対応付けた発音辞書に、読み間違いを示す識別情報を付加した前記処理対象単語と、前記処理対象単語に対して前記読み間違い生成ステップにおいて生成された前記読み間違いの読み方とを対応付けて登録することにより、前記発音辞書を更新する発音辞書更新ステップと、
前記テキストデータから単語同士のつながりを取得し、取得した前記単語同士のつながりに含まれる前記処理対象単語に前記識別情報を付加して生成した単語同士のつながりと、生成した前記単語同士のつながりに付与した所定の出現頻度とに基づいて、単語同士のつながり易さを表す言語モデルを更新する言語モデル更新ステップと、
前記発音辞書更新ステップにおいて更新した前記発音辞書及び前記言語モデル更新ステップにおいて更新した前記言語モデルに基づいて音声データを音声認識する認識処理ステップと、
前記認識処理ステップにおける音声認識の結果に前記識別情報が付加された単語が含まれる場合に、読み間違いを出力する出力ステップと、
を有することを特徴とする発話評価方法。 An utterance evaluation method executed by the utterance evaluation device,
Of the words constituting the sentence acquired from the text data, the word including the kanji is set as the processing target word, and the reading of the processing target word is read based on the reading that the kanji included in the processing target word can take. A reading error generation step to generate,
The processing target word in which identification information indicating a reading error is added to the pronunciation dictionary in which the word and the reading of the word are associated, and the reading error generated in the reading error generation step for the processing target word A pronunciation dictionary update step of updating the pronunciation dictionary by registering the readings in association with each other;
A connection between words is acquired from the text data, and a connection between words generated by adding the identification information to the processing target word included in the acquired connection between words and a connection between the generated words A language model update step for updating a language model representing the ease of connection between words based on the given frequency of appearance;
A recognition processing step for recognizing speech data based on the pronunciation dictionary updated in the pronunciation dictionary update step and the language model updated in the language model update step;
An output step of outputting a reading error when a word to which the identification information is added is included in a result of speech recognition in the recognition processing step;
An utterance evaluation method characterized by comprising:
単語と前記単語の読みとを対応付けた発音辞書を記憶する発音辞書記憶手段と、
単語同士のつながり易さを表す言語モデルを記憶する言語モデル記憶手段と、
テキストデータから取得した文を構成する単語のうち漢字を含んだ前記単語を処理対象単語とし、前記処理対象単語に含まれる前記漢字が取り得る読みに基づいて前記処理対象単語の読み間違いの読み方を生成する読み間違い生成手段と、
読み間違いを示す識別情報を付加した前記処理対象単語と、前記処理対象単語に対して前記読み間違い生成手段が生成した前記読み間違いの読み方とを対応付けて登録することにより前記発音辞書を更新する発音辞書更新手段と、
前記テキストデータから単語同士のつながりを取得し、取得した前記単語同士のつながりに含まれる前記処理対象単語に前記識別情報を付加して生成した単語同士のつながりと、生成した前記単語同士のつながりに付与した所定の出現頻度とに基づいて前記言語モデルを更新する言語モデル更新手段と、
前記発音辞書更新手段が更新した前記発音辞書及び前記言語モデル更新手段が更新した前記言語モデルに基づいて音声データを音声認識する認識処理手段と、
前記認識処理手段による音声認識の結果に前記識別情報が付加された単語が含まれる場合に、読み間違いを出力する出力手段と、
を具備する発話評価装置として機能させるためのプログラム。 Computer
Pronunciation dictionary storage means for storing a pronunciation dictionary in which a word and a reading of the word are associated with each other;
A language model storage means for storing a language model representing ease of connection between words;
Of the words constituting the sentence acquired from the text data, the word including the kanji is set as the processing target word, and the reading of the processing target word is read based on the reading that the kanji included in the processing target word can take. A reading error generation means to generate,
The pronunciation dictionary is updated by associating and registering the processing target word to which identification information indicating a reading error is added and the reading mistake generated by the reading error generation unit with respect to the processing target word. Pronunciation dictionary update means;
A connection between words is acquired from the text data, and a connection between words generated by adding the identification information to the processing target word included in the acquired connection between words and a connection between the generated words Language model updating means for updating the language model based on the given frequency of appearance;
Recognition processing means for recognizing speech data based on the pronunciation dictionary updated by the pronunciation dictionary update means and the language model updated by the language model update means;
An output means for outputting a reading error when a word to which the identification information is added is included in a result of speech recognition by the recognition processing means;
A program for functioning as an utterance evaluation apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014171913A JP6366179B2 (en) | 2014-08-26 | 2014-08-26 | Utterance evaluation apparatus, utterance evaluation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014171913A JP6366179B2 (en) | 2014-08-26 | 2014-08-26 | Utterance evaluation apparatus, utterance evaluation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016045467A true JP2016045467A (en) | 2016-04-04 |
JP6366179B2 JP6366179B2 (en) | 2018-08-01 |
Family
ID=55636053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014171913A Expired - Fee Related JP6366179B2 (en) | 2014-08-26 | 2014-08-26 | Utterance evaluation apparatus, utterance evaluation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6366179B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144101A (en) * | 2019-12-26 | 2020-05-12 | 北大方正集团有限公司 | Wrongly written character processing method and device |
CN113689882A (en) * | 2021-08-24 | 2021-11-23 | 上海喜马拉雅科技有限公司 | Pronunciation evaluation method and device, electronic equipment and readable storage medium |
CN116403604A (en) * | 2023-06-07 | 2023-07-07 | 北京奇趣万物科技有限公司 | Child reading ability evaluation method and system |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09114489A (en) * | 1995-10-16 | 1997-05-02 | Sony Corp | Device and method for speech recognition, device and method for navigation, and automobile |
JPH10308887A (en) * | 1997-05-07 | 1998-11-17 | Sony Corp | Program transmitter |
JP2003271183A (en) * | 2002-03-19 | 2003-09-25 | Sharp Corp | Device, method and program for preparing voice recognition dictionary, device and system for recognizing voice, portable terminal device and program recording medium |
JP2004334207A (en) * | 2003-05-01 | 2004-11-25 | Microsoft Corp | Assistance for dynamic pronunciation for training of japanese and chinese speech recognition system |
JP2006084966A (en) * | 2004-09-17 | 2006-03-30 | Advanced Telecommunication Research Institute International | Automatic evaluating device of uttered voice and computer program |
JP2014145842A (en) * | 2013-01-28 | 2014-08-14 | Fujitsu Ltd | Speech production analysis device, voice interaction control device, method, and program |
-
2014
- 2014-08-26 JP JP2014171913A patent/JP6366179B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09114489A (en) * | 1995-10-16 | 1997-05-02 | Sony Corp | Device and method for speech recognition, device and method for navigation, and automobile |
JPH10308887A (en) * | 1997-05-07 | 1998-11-17 | Sony Corp | Program transmitter |
JP2003271183A (en) * | 2002-03-19 | 2003-09-25 | Sharp Corp | Device, method and program for preparing voice recognition dictionary, device and system for recognizing voice, portable terminal device and program recording medium |
JP2004334207A (en) * | 2003-05-01 | 2004-11-25 | Microsoft Corp | Assistance for dynamic pronunciation for training of japanese and chinese speech recognition system |
JP2006084966A (en) * | 2004-09-17 | 2006-03-30 | Advanced Telecommunication Research Institute International | Automatic evaluating device of uttered voice and computer program |
JP2014145842A (en) * | 2013-01-28 | 2014-08-14 | Fujitsu Ltd | Speech production analysis device, voice interaction control device, method, and program |
Non-Patent Citations (1)
Title |
---|
鹿野清宏他, IT TEXT 音声認識システム, vol. 第1版第2刷, JPN6018019579, 25 May 2012 (2012-05-25), pages 91 - 92, ISSN: 0003806418 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144101A (en) * | 2019-12-26 | 2020-05-12 | 北大方正集团有限公司 | Wrongly written character processing method and device |
CN111144101B (en) * | 2019-12-26 | 2021-12-03 | 北大方正集团有限公司 | Wrongly written character processing method and device |
CN113689882A (en) * | 2021-08-24 | 2021-11-23 | 上海喜马拉雅科技有限公司 | Pronunciation evaluation method and device, electronic equipment and readable storage medium |
CN116403604A (en) * | 2023-06-07 | 2023-07-07 | 北京奇趣万物科技有限公司 | Child reading ability evaluation method and system |
CN116403604B (en) * | 2023-06-07 | 2023-11-03 | 北京奇趣万物科技有限公司 | Child reading ability evaluation method and system |
Also Published As
Publication number | Publication date |
---|---|
JP6366179B2 (en) | 2018-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6251958B2 (en) | Utterance analysis device, voice dialogue control device, method, and program | |
US10679606B2 (en) | Systems and methods for providing non-lexical cues in synthesized speech | |
KR102191425B1 (en) | Apparatus and method for learning foreign language based on interactive character | |
CN110797006B (en) | End-to-end speech synthesis method, device and storage medium | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
US20150179173A1 (en) | Communication support apparatus, communication support method, and computer program product | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN110956948A (en) | End-to-end speech synthesis method, device and storage medium | |
US20230055233A1 (en) | Method of Training Voice Recognition Model and Voice Recognition Device Trained by Using Same Method | |
JP2018159788A (en) | Information processing device, method and program | |
JP6366179B2 (en) | Utterance evaluation apparatus, utterance evaluation method, and program | |
JPWO2011033834A1 (en) | Speech translation system, speech translation method, and recording medium | |
JP5088109B2 (en) | Morphological analyzer, morphological analyzer, computer program, speech synthesizer, and speech collator | |
KR100890404B1 (en) | Method and Apparatus for auto translation using Speech Recognition | |
JP2019095603A (en) | Information generation program, word extraction program, information processing device, information generation method and word extraction method | |
JP2010197709A (en) | Voice recognition response method, voice recognition response system and program therefore | |
CN114023327B (en) | Text correction method, device, equipment and medium based on speech recognition | |
JP2014215396A (en) | Pronunciation application method, device therefor and program | |
US11935425B2 (en) | Electronic device, pronunciation learning method, server apparatus, pronunciation learning processing system, and storage medium | |
JP6244993B2 (en) | Encouraging sound determination device, encouraging sound determination method, and encouraging sound determination computer program | |
CN113284514B (en) | Audio processing method and device | |
CN115798277A (en) | Online classroom interaction method and online classroom system | |
JP2024001922A (en) | Information processing system, information processing method and program | |
CN117219062A (en) | Training data generation method and device, electronic equipment and storage medium | |
JP2001166790A (en) | Automatic generating device for initially written text, voice recognition device, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170626 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180605 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180702 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6366179 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |