JP4878220B2 - Model learning method, information extraction method, model learning device, information extraction device, model learning program, information extraction program, and recording medium recording these programs - Google Patents
Model learning method, information extraction method, model learning device, information extraction device, model learning program, information extraction program, and recording medium recording these programs Download PDFInfo
- Publication number
- JP4878220B2 JP4878220B2 JP2006155970A JP2006155970A JP4878220B2 JP 4878220 B2 JP4878220 B2 JP 4878220B2 JP 2006155970 A JP2006155970 A JP 2006155970A JP 2006155970 A JP2006155970 A JP 2006155970A JP 4878220 B2 JP4878220 B2 JP 4878220B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognition
- word string
- information
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、データの情報抽出を行う技術に関する。 The present invention relates to a technique for extracting data information.
従来、音声データや画像データ(以下、「元データ」という)から言語的な情報、例えば特定のキーワードや、人名・地名等の情報抽出時には、音声認識や文字認識等の技術を用いて、元データに含まれていると推定される単語列または文字列(以下、「認識単語列」という)を得て、その後、情報の抽出が行われる。その場合、認識単語列には、音声認識や文字認識の誤り(以下、「認識誤り」という)が含まれ得るため、本来抽出されるべき情報が欠落したり、元データに含まれていない誤った情報が抽出されたりすることがある。従って、認識誤りの影響を軽減することが必要となる。 Conventionally, when extracting linguistic information from voice data or image data (hereinafter referred to as “original data”), for example, information such as a specific keyword, a person name, a place name, etc., using a technique such as voice recognition or character recognition, A word string or a character string estimated to be included in the data (hereinafter referred to as “recognized word string”) is obtained, and then information is extracted. In that case, the recognition word string may contain an error in speech recognition or character recognition (hereinafter referred to as “recognition error”), so that information that should be extracted is missing or an error that is not included in the original data. Information may be extracted. Therefore, it is necessary to reduce the influence of recognition errors.
音声認識を用いた情報抽出の技術としては、認識結果に対して各認識単語が正しいか否かを測る、認識確信度(confidence、以下「確信度」と適宜記載)と呼ばれる値を利用して認識誤りを予測し、情報抽出時に受ける影響を軽減する方法がある(例えば、非特許文献1参照)。
Information extraction technology using speech recognition uses a value called recognition confidence (confidence, hereinafter referred to as “confidence” as appropriate), which measures whether each recognition word is correct for the recognition result. There is a method for predicting a recognition error and reducing the influence of information extraction (see Non-Patent
当該技術では、公知の技術である隠れマルコフモデル(Hidden Markov Model)に類した生成モデル(generative model)を利用して、認識単語列に抽出対象の種別を示すラベル(出力ラベル)を付与する。この生成モデルでは、単語の系列Wと出力ラベルの系列Nの同時確率P(W,N)を最大化するようなNを選択する。一般に、系列全体の同時確率の推定には、学習データが不足するため、ある位置iに存在する単語wiとこの単語wiに対応する出力ラベルniとの同時確率は、直前I個の単語と直前J個の出力ラベルのみに依存する、というような近似が行われる。 In this technique, a label (output label) indicating the type of an extraction target is assigned to a recognized word string using a generative model similar to a hidden Markov model that is a known technique. In this generation model, N that maximizes the joint probability P (W, N) of the word sequence W and the output label sequence N is selected. In general, since there is insufficient learning data to estimate the joint probability of the entire sequence, the joint probability between the word wi existing at a certain position i and the output label ni corresponding to the word wi is the immediately preceding I word and the immediately preceding word. An approximation is made that depends only on J output labels.
非特許文献1における生成モデルの学習には、音声認識誤りを含み、認識誤りした単語は「誤認識した単語」として表現されたデータと、認識誤りを含まないテキストデータとを用いる。なお、それぞれのデータの各単語には、抽出対象の種別を示すラベルが付与されている。そして、情報抽出時には、各認識単語の認識確信度を用いて、その単語の認識の正誤や、付与されるラベル等の様々な可能性を考慮し、最終的に同時確率が最適となるようなラベルの系列を出力する。この生成モデルでは、認識誤りである単語には抽出対象にならないようにラベルが付与されている。そのため、生成モデルを利用した場合、認識確信度の低い認識単語に対しては、その認識単語が正しいものとして処理した場合の尤もらしさと、その認識単語が誤っているものとして処理した場合の尤もらしさとを比較してから、認識単語を選択することで、認識誤りの影響を軽減させている。
The learning of the generation model in Non-Patent
一方、認識誤りを考慮しない、通常の文字列データからの情報抽出に関する技術としては、自然言語処理における固有表現抽出の技術が知られている。固有表現とは、人名、地名、組織名等の固有名詞や、日付、時間、金額等の特定の実体を指す名詞句のことである。この自然言語処理における固有表現抽出では、隠れマルコフモデルのような生成モデルよりも、最大エントロピーモデル、サポートベクトルマシン(Support Vector Machine、以下「SVM」と適宜記載)等の識別モデル(discriminative model)のほうが高い性能を示すことが知られている。 On the other hand, as a technique related to information extraction from normal character string data that does not consider recognition errors, a technique for extracting a specific expression in natural language processing is known. The proper expression is a proper noun such as a person name, a place name, and an organization name, and a noun phrase indicating a specific entity such as a date, time, and money. In the natural language processing, the identification expression (discriminative model) such as the maximum entropy model, support vector machine (hereinafter referred to as “SVM”) is used rather than the generation model such as the hidden Markov model. Is known to exhibit higher performance.
この識別モデルでは、単語の系列Wと出力ラベルの系列Nの同時確率P(N,W)ではなく、系列Wに対する系列Nの条件付き確率P(N|W)を最大化するようなNを選択する。識別モデルは、識別対象の多数の素性(feature)を利用して、その識別対象がどの種別(人名、地名、日付等)に属するかを判定するためのモデルであり、周辺の単語の情報や品詞の情報等を柔軟に利用できる利点がある。例えば非特許文献2では、SVMを用い、単語、品詞、単語の文字種(漢字のみから成る単語、数字、・・・等)を素性として利用することにより、高精度な固有表現抽出を実現している。
つまり、識別モデルは、扱われる素性が互いに独立でないような多数の情報について、統合的に用いることができる。
In this identification model, N that maximizes the conditional probability P (N | W) of the sequence N for the sequence W, not the simultaneous probability P (N, W) of the sequence W of words and the sequence N of output labels. select. The identification model is a model for determining which type (person name, place name, date, etc.) the identification object belongs to by using a number of features of the identification object. There is an advantage that information of part of speech etc. can be used flexibly. For example, Non-Patent
That is, the identification model can be used in an integrated manner with respect to a large number of pieces of information whose handled features are not independent of each other.
それに対して、生成モデルでは、素性の独立性を保つために、「単語表層のみ」、または「単語表層+品詞」の組み合わせを1つの素性として用いている。この場合、素性の組み合わせによって素性数が増大し、さらにこの組み合わせ素性に統合する情報が増えると、素性数が指数関数的に増大するため、データスパースネス(学習データの不足)の問題はより大きくなる。
そのため、生成モデルにおいて、識別モデルで行われているように多数の情報を統合的に用いること、つまり、素性を生成モデルの情報として用いることは、使用できる情報の制限が大きく、理論的には可能であっても、実現は困難であった。
On the other hand, in the generation model, a combination of “word surface layer only” or “word surface layer + part of speech” is used as one feature in order to maintain the independence of the features. In this case, the number of features increases due to the combination of features, and the number of features increases exponentially as more information is integrated into the combined features, so the problem of data sparseness (learning data shortage) becomes larger. Become.
Therefore, in the generation model, using a large amount of information as is done in the identification model, that is, using the feature as information of the generation model has a large limitation on the information that can be used. Even if possible, it was difficult to realize.
また、生成モデルにおいて、「単語表層」と「品詞」とを独立であるとみなして、それぞれ個別に素性として同時に用いることは、不自然な状態を引き起こす。
その点について具体的に説明する。独立は以下の式(1)で表される。
This will be specifically described. Independence is represented by the following formula (1).
例えば、ある単語(表層「に」、品詞「助詞・格助詞」)を考えると、両者が独立、すなわちP(「に」|「助詞・格助詞」)=P(「に」)であることは、「助詞・格助詞」である単語として「に」を観測する条件付き確率と、任意の単語として「に」を観測する確率とが等しいことになってしまう。このことから、「に」の品詞が「助詞・格助詞」である頻度の多さ(動詞「にる」の未然形、連用形等と比較して)を考えると不自然であることが分かる。
また、単語表層(例:「NTT」(登録商標))と文字種(例:「すべてアルファベット大文字」)も同様に独立ではない。
また、階層化された品詞体系を利用し、複数の階層を素性として利用するような場合、品詞の大分類(例:「助詞」)と少し細かい分類(例:「助詞・格助詞」)も同じように独立ではない。
さらに、文字種素性の与え方として、互いに独立でない方法も考えることができる。例えば、単語「THINK」は、「アルファベット」「アルファベット大文字で始まる」「すべてアルファベット大文字」という3つの文字種素性を持つ単語と考えることもできる。
For example, given a word (surface layer “ni”, part of speech “particle / case particle”), both are independent, ie, P (“ni” | “particle / case particle”) = P (“ni”) The conditional probability of observing “ni” as a word that is “particle / case particle” is equal to the probability of observing “ni” as an arbitrary word. From this, it can be seen that it is unnatural considering the frequency with which the part-of-speech of “ni” is “particle / case particle” (compared to the verbal form of the verb “niru”, the combined form, etc.).
Similarly, the word surface layer (for example, “NTT” (registered trademark)) and the character type (for example, “all alphabetic capital letters”) are not independent.
In addition, when using a hierarchical part-of-speech system and using multiple hierarchies as features, there is also a major part-of-speech classification (eg, “particle”) and a slightly finer classification (eg, “particle / case particle”). Just as independent.
Furthermore, methods that are not independent of each other can be considered as a method of giving character type features. For example, the word “THINK” can be considered as a word having three character type features of “alphabet”, “starting with an uppercase alphabetic character”, and “all uppercase alphabetic characters”.
素性が独立であることが必要な生成モデルにおいては、識別モデルのように独立でない素性を利用するためには、独立性を維持できる適切な素性集合を定義する、という困難な作業が要求されることになる。
このことから、自然言語処理分野では識別モデルが多く用いられている。
Generating models that require independence of features requires the difficult task of defining an appropriate feature set that can maintain independence in order to use non-independent features such as the identification model. It will be.
Therefore, many identification models are used in the natural language processing field.
なお、非特許文献3には、識別モデルである最大エントロピーモデルを、音声認識結果に適用する技術が記載されている。
Non-Patent
また、特許文献1には、識別モデルにおいて、入力ベクトルの属するクラスの判定に要する計算時間を大幅に削減する分類技術が開示されている。
識別モデルは、高性能であることが知られていながら、これまで生成モデルのように入力単語の確信度(正誤予測)の情報が用いられてこなかったため、音声認識結果のような誤りを含む入力に、誤りの存在を考慮しない識別モデルを利用するという形の技術しか存在していなかった(非特許文献3参照)。 Although the identification model is known to have high performance, the input word confidence (correct / predictive) information has not been used as in the generation model so far. However, there is only a technique of using an identification model that does not consider the presence of errors (see Non-Patent Document 3).
また、非特許文献1のような、生成モデルにおいて入力単語の正誤情報を利用する場合にも、誤認識した単語の素性(単語そのもの、品詞、文字種等)の情報を利用することは、前記した素性の独立性の観点から困難であり、単に「誤認識した単語」と表現することしかできず、柔軟な素性設計が困難だった。
In addition, when using correct / incorrect information of input words in the generation model as in Non-Patent
生成モデルにおける確信度は連続値である。
識別モデルにおいて、より多くの情報を用いてモデル情報を学習するために、認識誤りを含まない参照単語列と、認識誤りを含む認識単語列とをモデルの学習用データとして用いた場合、参照単語列と認識単語列とで同じ設計の素性を定義しなければならない。そして、正誤情報を付与するために、生成モデルで利用されるような確信度を用いると、参照単語列の確信度は「正」か「誤」かの2値で表現されるのに対し、認識単語列の確信度は連続値であるために、参照単語列と比較することはできなかった。つまり、識別モデルの学習に確信度を含んだ情報を利用することは困難であった。
The certainty factor in the generation model is a continuous value.
In order to learn model information using more information in an identification model, when a reference word string that does not include a recognition error and a recognition word string that includes a recognition error are used as model learning data, the reference word The same design features must be defined for sequences and recognition word sequences. Then, when using certainty factors such as those used in the generation model in order to give correct / incorrect information, the certainty factor of the reference word string is expressed as a binary value of “correct” or “false” Since the certainty factor of the recognized word string is a continuous value, it cannot be compared with the reference word string. That is, it is difficult to use information including confidence in learning of the identification model.
そこで、本発明では、前記した問題を解決し、認識誤りによる影響を軽減することを目的とする。 Therefore, an object of the present invention is to solve the above-described problems and reduce the influence of recognition errors.
本発明では、識別モデルの学習には、固有表現ラベル(抽出対象情報)が付与された誤りを含む認識単語列と、同様に固有表現ラベル(抽出対象情報)が付与された、誤りを含まない参照単語列(例えば、音声を人手で書き起こしたもの)を用いる。そして、各認識単語の正しさを表す認識確信度素性を2値化したことで、参照単語列は「すべての認識単語が正しいような認識単語列」として扱うことができる。これにより、参照単語列を認識単語列と同時に用いることで、識別モデルの学習効果を向上することが可能となる。 In the present invention, the learning of the identification model does not include the recognition word string including the error to which the specific expression label (extraction target information) is added and the error to which the specific expression label (extraction target information) is similarly added. A reference word string (for example, a transcription of speech manually) is used. Then, by binarizing the recognition certainty feature indicating the correctness of each recognized word, the reference word string can be handled as “a recognized word string in which all recognized words are correct”. Thereby, the learning effect of the identification model can be improved by using the reference word string at the same time as the recognized word string.
また、本発明では、従来技術では用いられなかった、誤認識した単語に関する素性も同時に利用する。生成モデルを利用した従来技術のように「誤認識した単語」という情報だけでなく、それがどの単語として認識されたのか、また、その単語はどのような素性を持つ単語なのか、という情報を、本発明では簡便に利用できる。このような誤認識した単語に関する情報は、誤りを含まない入力を仮定していた識別モデルを用いた従来技術では、考慮されなかった情報である。 In the present invention, a feature related to a misrecognized word that was not used in the prior art is also used. Not only the information of “words that were misrecognized” as in the prior art using generative models, but also information about which words were recognized and what features the words have. In the present invention, it can be easily used. Information regarding such misrecognized words is information that has not been considered in the prior art using an identification model that assumes an input that does not include errors.
そこで、前記課題を解決するため、請求項1に記載のモデル学習方法は、入力された音声または文字のデータに含まれる各単語に対して、単語の種別を示すラベルを付与するためのモデル情報を学習するモデル学習方法であって、音声または文字のデータであるモデル学習用のデータを、音声認識または文字認識により認識した単語の列を認識単語列とし、かつ、前記モデル学習用のデータに対応する正しい認識結果である単語列中の各単語に対して当該単語の種別を示す正しいラベルが付与された単語列を参照単語列としたときに、前記モデル情報を学習するモデル学習装置が、前記認識単語列の各単語と前記参照単語列中の各単語とを比較して、前記参照単語列と一致する前記認識単語列中の単語には認識結果が正しいことを示す情報を認識確信度として付与し、前記参照単語列と一致しない前記認識単語列中の単語には認識結果が誤りであること示す情報を認識確信度として付与することで、認識確信度を備えた正誤情報つき認識単語列を生成する単語列対応付けステップと、前記正誤情報つき認識単語列と前記参照単語列とを比較し、前記参照単語列と一致する前記正誤情報つき認識単語列中の各単語に、当該単語と一致した前記参照単語列に付与されたラベルを付与することで、認識確信度とラベルとを備えた認識単語列学習データを作成する認識単語列学習データ作成ステップと、前記参照単語列中の各単語に、認識結果が正しいことを示す情報を前記認識確信度として付与することで、認識確信度とラベルとを備えた参照単語列学習データを作成する参照単語列学習データ作成ステップと、前記認識単語列学習データおよび前記参照単語列学習データを入力として、サポートベクトルマシン、最大エントロピーモデル、または条件付き確率場を用いて、少なくとも前記認識確信度を素性として、前記入力された音声または文字のデータに含まれる各単語に対して最適な単語の種別を示すラベルを付与するための前記モデル情報を学習し、記憶手段に格納するモデル作成ステップとを含むことを特徴とする。
Therefore, in order to solve the above-mentioned problem, the model learning method according to
かかる手順によれば、モデル学習装置は、正誤情報が付与された認識単語列および参照単語列を比較することが可能となり、それによってモデル情報を作成するので、情報抽出時の精度が向上する。 According to such a procedure, the model learning device can compare the recognized word sequence and the reference word sequence to which the correct / incorrect information is given, thereby creating the model information, so that the accuracy at the time of information extraction is improved.
また、請求項2に記載の情報抽出方法は、音声または文字の入力データから、所定の種別を示すラベルが付与された単語を抽出対象情報として抽出する情報抽出方法であって、音声または文字のデータであるモデル学習用のデータを、音声認識または文字認識により認識した単語の列を認識単語列とし、かつ、前記モデル学習用のデータに対応する正しい認識結果である単語列中の各単語に対して当該単語の種別を示す正しいラベルが付与された単語列を参照単語列としたときに、入力された音声または文字のデータに含まれる各単語に対して、単語の種別を示すラベルを付与するためのモデル情報を学習するモデル学習装置が、前記認識単語列の各単語と前記参照単語列中の各単語とを比較して、前記参照単語列と一致する前記認識単語列中の単語には認識結果が正しいことを示す情報を認識確信度として付与し、前記参照単語列と一致しない前記認識単語列中の単語には認識結果が誤りであること示す情報を認識確信度として付与することで、認識確信度を備えた正誤情報つき認識単語列を生成する単語列対応付けステップと、前記正誤情報つき認識単語列と前記参照単語列とを比較し、前記参照単語列と一致する前記正誤情報つき認識単語列中の各単語に、当該単語と一致した前記参照単語列に付与されたラベルを付与することで、認識確信度とラベルとを備えた認識単語列学習データを作成する認識単語列学習データ作成ステップと、前記参照単語列中の各単語に、認識結果が正しいことを示す情報を前記認識確信度として付与することで、認識確信度とラベルとを備えた参照単語列学習データを作成する参照単語列学習データ作成ステップと、前記認識単語列学習データおよび前記参照単語列学習データを入力として、サポートベクトルマシン、最大エントロピーモデル、または条件付き確率場を用いて、少なくとも前記認識確信度を素性として、前記音声または文字の入力データに含まれる各単語に対して最適な単語の種別を示すラベルを付与するための前記モデル情報を学習し、記憶手段に格納するモデル作成ステップと、前記音声または文字の入力データを音声認識または文字認識により単語列に認識し、認識した複数の単語列の候補をグラフ表現で表わした単語ラティスを作成する単語列認識ステップと、前記単語ラティスに含まれる各単語について、当該単語の認識の正しさを連続値で表現したスコアを算出し、当該スコアが所定の閾値以上であれば認識が正しいことを示す情報を認識確信度として付与し、それ以外の場合は認識が誤りであることを示す情報を認識確信度として各単語に付与することで、認識確信度を備えた前記単語ラティスに対する確信度情報付き認識単語列を作成する単語確信度計算ステップと、前記モデル作成ステップにおいて作成したモデル情報を用いて、前記単語ラティスに対する確信度情報付き認識単語列の各単語に対し、ラベルを付与するラベル付与ステップと、前記単語ラティスに対する確信度情報付き認識単語列から、前記所定の種別に対応するラベルが付与された単語を前記抽出対象情報として抽出する情報抽出ステップとを含むことを特徴とする。
An information extraction method according to
かかる手順によれば、情報抽出装置は、認識単語列の確信度を正誤情報として算出して、認識単語列に付与する。それにより、正誤情報に基づいて付与された抽出対象情報を用いて、情報抽出することができる。 According to this procedure, the information extraction device calculates the certainty factor of the recognized word string as correct / incorrect information and assigns it to the recognized word string. Thereby, information can be extracted using the extraction object information given based on correct / incorrect information.
また、請求項3に記載のモデル学習装置は、入力された音声または文字のデータに含まれる各単語に対して、単語の種別を示すラベルを付与するためのモデル情報を学習するモデル学習装置であって、音声または文字のデータであるモデル学習用のデータを、音声認識または文字認識により認識した単語の列である認識単語列を作成する単語列認識手段と、前記モデル学習用のデータに対応する正しい認識結果である単語列中の各単語に対して当該単語の種別を示す正しいラベルが付与された単語列を参照単語列である参照単語列中の各単語と前記認識単語列の各単語とを比較して、前記参照単語列と一致する前記認識単語列中の単語には認識結果が正しいことを示す情報を認識確信度として付与し、前記参照単語列と一致しない前記認識単語列中の単語には認識結果が誤りであること示す情報を認識確信度として付与することで、認識確信度を備えた正誤情報つき認識単語列を生成する単語列対応付け手段と、前記正誤情報つき認識単語列と前記参照単語列とを比較し、前記参照単語列と一致する前記正誤情報つき認識単語列中の各単語に、当該単語と一致した前記参照単語列に付与されたラベルを付与することで、認識確信度とラベルとを備えた認識単語列学習データを作成する認識単語列学習データ作成手段と、前記参照単語列中の各単語に、認識結果が正しいことを示す情報を前記認識確信度として付与することで、認識確信度とラベルとを備えた参照単語列学習データを作成する参照単語列学習データ作成手段と、前記認識単語列学習データおよび前記参照単語列学習データを入力として、サポートベクトルマシン、最大エントロピーモデル、または条件付き確率場を用いて、少なくとも前記認識確信度を素性として、前記入力された音声または文字のデータに含まれる各単語に対して最適な単語の種別を示すラベルを付与するための前記モデル情報を学習し、記憶手段に格納するモデル作成手段とを備えることを特徴とする。
The model learning device according to
かかる構成によれば、モデル学習装置は、正誤情報が付与された認識単語列および参照単語列を比較することが可能となり、それによってモデル情報を作成するので、情報抽出時の精度が向上する。 According to such a configuration, the model learning device can compare the recognized word sequence to which the correct / incorrect information is given and the reference word sequence, thereby creating the model information, thereby improving the accuracy at the time of information extraction.
また、請求項4に記載の情報抽出装置は、音声または文字の入力データから、所定の種別を示すラベルが付与された単語を抽出対象情報として抽出する情報抽出装置であって、モデル学習時に音声または文字のデータであるモデル学習用のデータを、音声認識または文字認識により認識した単語の列である認識単語列を作成すると共に、情報抽出時に前記音声または文字の入力データを音声認識または文字認識により単語列に認識し、認識した複数の単語列の候補をグラフ表現で表わした単語ラティスを作成する単語列認識手段と、モデル学習時に前記モデル学習用のデータに対応する正しい認識結果である単語列中の各単語に対して当該単語の種別を示す正しいラベルが付与された単語列を参照単語列である参照単語列中の各単語と前記認識単語列の各単語とを比較して、前記参照単語列と一致する前記認識単語列中の単語には認識結果が正しいことを示す情報を認識確信度として付与し、前記参照単語列と一致しない前記認識単語列中の単語には認識結果が誤りであること示す情報を認識確信度として付与することで、認識確信度を備えた正誤情報つき認識単語列を生成する単語列対応付け手段と、モデル学習時に前記正誤情報つき認識単語列と前記参照単語列とを比較し、前記参照単語列と一致する前記正誤情報つき認識単語列中の各単語に、当該単語と一致した前記参照単語列に付与されたラベルを付与することで、認識確信度とラベルとを備えた認識単語列学習データを作成する認識単語列学習データ作成手段と、モデル学習時に前記参照単語列中の各単語に、認識結果が正しいことを示す情報を前記認識確信度として付与することで、認識確信度とラベルとを備えた参照単語列学習データを作成する参照単語列学習データ作成手段と、モデル学習時に前記認識単語列学習データおよび前記参照単語列学習データを入力として、サポートベクトルマシン、最大エントロピーモデル、または条件付き確率場を用いて、少なくとも前記認識確信度を素性として、前記入力された音声または文字のデータに含まれる各単語に対して最適な単語の種別を示すラベルを付与するためのモデル情報を学習し、記憶手段に格納するモデル作成手段と、情報抽出時に前記単語ラティスに含まれる各単語について、当該単語の認識の正しさを連続値で表現したスコアを算出し、当該スコアが所定の閾値以上であれば認識が正しいことを示す情報を認識確信度として付与し、それ以外の場合は認識が誤りであることを示す情報を認識確信度として各単語に付与することで、認識確信度を備えた前記単語ラティスに対する確信度情報付き認識単語列を作成する単語確信度計算手段と、前記モデル作成手段で作成したモデル情報を用いて、情報抽出時に前記単語ラティスに対する確信度情報付き認識単語列の各単語に対し、ラベルを付与するラベル付与手段と、情報抽出時に前記単語ラティスに対する確信度情報付き認識単語列から、前記所定の種別に対応するラベルが付与された単語を前記抽出対象情報として抽出する情報抽出手段とを備えることを特徴とする。
Further, the information extraction device according to
かかる構成によれば、情報抽出装置は、認識単語列の確信度を正誤情報として算出して、認識単語列に付与する。それにより、正誤情報に基づいて付与された抽出対象情報を用いて、情報抽出することができる。 According to this configuration, the information extraction device calculates the certainty factor of the recognized word string as correct / incorrect information and assigns it to the recognized word string. Thereby, information can be extracted using the extraction object information given based on correct / incorrect information.
また、請求項5に記載のモデル学習プログラムは、請求項1に記載のモデル学習方法を、コンピュータに実行させることを特徴とする。
かかる構成によれば、モデル学習プログラムがインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。
Further, the model learning program according to
According to such a configuration, the computer in which the model learning program is installed can realize each function based on this program.
また、請求項6に記載の情報抽出プログラムは、請求項2に記載の情報抽出方法を、コンピュータに実行させることを特徴とする。
かかる構成によれば、情報抽出プログラムがインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。
An information extraction program according to
According to this configuration, the computer in which the information extraction program is installed can realize each function based on this program.
また、請求項7に記載の記憶媒体は、請求項5に記載のモデル学習プログラム、または請求項6に記載の情報抽出プログラムを記録したコンピュータに読み取り可能な記録媒体であることを特徴とする。記録媒体には、例えば、ハードディスク、CD−ROM、DVD、フレキシブルディスク、メモリなどがある。この記憶媒体をコンピュータに読み込ませることにより、任意のコンピュータ上で情報抽出プログラムの各機能を実行することが可能となる。
The storage medium according to
本発明によれば、認識誤りによる影響を軽減させることができる。 According to the present invention, the influence of recognition errors can be reduced.
以下、図面を参照して本発明のモデル学習方法および情報抽出方法を実施するための最良の形態(以下「実施形態」という)について、詳細に説明する。
なお、本実施形態において、モデル学習とは、情報抽出時に用いるモデル情報を作成(更新)するものであり、情報抽出とは、入力されたデータに対し、抽出対象情報を用いて情報抽出を行うものである。
Hereinafter, the best mode (hereinafter referred to as “embodiment”) for carrying out the model learning method and the information extraction method of the present invention will be described in detail with reference to the drawings.
In the present embodiment, model learning is to create (update) model information used at the time of information extraction, and information extraction is information extraction using input object information for input data. Is.
[端末装置の構成]
図1は、本発明に係る端末装置(モデル学習装置、情報抽出装置)の一例を示す機能ブロック図である。
端末装置100は、図1に示すように、入出力手段110と、制御手段130と、記憶手段150とを備える。
[Configuration of terminal device]
FIG. 1 is a functional block diagram showing an example of a terminal device (model learning device, information extraction device) according to the present invention.
As illustrated in FIG. 1, the
入出力手段110は、例えば、入出力インタフェース等から構成され、入力されたデータや命令を取得したり、所定のデータを出力したりするものである。
ここでは、入出力手段110は、入力されたデータを取得し、制御手段130へ出力するデータ入力手段111と、制御手段130から送信された抽出結果の情報を取得し、ディスプレイやプリンタ等に出力するデータ出力手段115とを備える。
The input / output means 110 is composed of, for example, an input / output interface, etc., and acquires input data and commands, or outputs predetermined data.
Here, the input /
制御手段130は、例えば、CPU(Central Processing Unit)等から構成され、入出力手段110および記憶手段150を制御すると共に、入力されたデータの情報抽出を行うものであり、図1に示すように、認識部131と、学習データ処理部133と、モデル作成部135と、情報抽出部137とを備える。
The control means 130 is composed of, for example, a CPU (Central Processing Unit) and the like, and controls the input / output means 110 and the storage means 150 and extracts information of the input data, as shown in FIG. , A
認識部131は、入力された元データをデータ入力手段111から取得し、認識単語列などを出力する。元データとは、モデル学習用の音声データや文字データ、情報抽出を行う対象となるデータ等である。
認識部131は、音声認識あるいは文字認識を行う単語列認識手段1310と、各認識単語の確信度を計算する単語確信度計算手段1311とによって構成される。
The
The
単語列認識手段1310は、モデル学習時には、入力された元データ(学習用入力データ)に対し、1またはそれ以上の認識単語列を出力する。また、情報抽出時には、入力された元データに対し、単語ラティス(複数の認識単語列をコンパクトに表現するための、有向非循環のグラフ)を作成し、単語確信度計算手段1311に出力する。
これらの音声認識技術の一例として、例えば参考文献1が挙げられる。
[参考文献1]
李晃伸、河原達也、堂下修司、“文法カテゴリ対制約を用いたA*探索に基づく大語彙連続音声認識パーザ”、情報処理学会論文誌、1999、Vol.40,No.4,pp.1374-1382
なお、単語ラティスの具体的な説明は、後記する。
The word string recognition means 1310 outputs one or more recognized word strings for the input original data (learning input data) during model learning. Further, at the time of information extraction, a word lattice (a directed acyclic graph for compactly expressing a plurality of recognized word strings) is created for the input original data and output to the word certainty calculation means 1311. .
As an example of these voice recognition techniques, for example,
[Reference 1]
Lee Sung-nobu, Kawahara Tatsuya, Doshita Shuji, “Large Vocabulary Continuous Speech Recognition Parser Based on A * Search Using Grammar Category Pair Constraints”, IPSJ Journal, 1999, Vol.40, No.4, pp.1374 -1382
A specific explanation of the word lattice will be given later.
単語確信度計算手段1311は、情報抽出時に単語列認識手段1310から出力される情報(単語ラティス)を用いて、各認識単語の確信度(認識確信度)を計算する。具体的な計算手法としては、音声認識分野で公知の単語確信度計算技術が利用可能である。例えば、参考文献2に記載の方法では、「対象単語を含む音声認識仮説のスコアの和」と「単語グラフから得られる全音声認識仮説のスコア総和」の比として単語事後確率の計算を行う。
[参考文献2]
F.Wessel et al.、“Confidence measures for large vocabulary continuous speech recognition”、IEEE transaction on Speech and Audio Processing、2001、vol9、No.3、pp.288-298
The word
[Reference 2]
F. Wessel et al., “Confidence measures for large vocabulary continuous speech recognition”, IEEE transaction on Speech and Audio Processing, 2001, vol9, No.3, pp.288-298
単語確信度計算手段1311は、認識確信度を算出し、確信度付き認識単語列を作成する。算出される認識確信度の認識確信度(正解/不正解のスコア)は連続値であり、値が大きければ単語の認識は正しい可能性が高く、値が小さければ誤りである可能性が高い。そこで、単語確信度計算手段1311は、認識確信度について、閾値以上ならば「正」、そうでなければ「誤」という値を付与した確信度情報付き認識単語列を作成する。
なお、単語確信度計算手段1311を、単語列認識手段1310に含ませることで、単語列の認識と同時に実行することもできる。また、単語列認識手段1310において、認識確信度に相当する尤度等のスコアを認識単語列に付与することで、それを入力として実行することもできる。
The word
In addition, by including the word certainty calculation means 1311 in the word string recognition means 1310, it can be executed simultaneously with the recognition of the word string. In addition, the word
学習データ処理部133は、入力された元データに対する認識単語列と、元データに対応する抽出対象情報(例えば、固有表現ラベル)が付与された参照単語列とを入力とし、識別モデルの学習用データを出力する。
ここで、参照単語列とは、元データに対応する正解単語列(人手による書き起こし結果等)に、各単語が抽出対象情報のどの種別に該当するかを示す識別情報に相当するラベル(固有表現ラベル)が付与されたものである。この参照単語列と、端末装置100に入力される元データとが、学習元データベース(以下、「学習元DB」と適宜記載)に格納されており、学習元データベースが端末装置100に入力されることで、モデル学習処理が開始される。
The learning
Here, the reference word string is a label (unique) corresponding to identification information indicating which type of extraction target information each word corresponds to a correct word string (manual transcription result, etc.) corresponding to the original data. Expression label). This reference word string and the original data input to the
学習データ処理部133は、認識単語列中の認識誤りを判定する単語列対応付け手段1330、正誤情報付き認識単語列を用いて学習データを作成する認識単語列学習データ作成手段1331、参照単語列を用いて学習データを作成する参照単語列学習データ作成手段1332とを備える。
The learning
単語列対応付け手段1330は、認識単語列と参照単語列(正解単語列)とを、公知の技術であるDP(Dynamic Programming)マッチング等により対応付けし、各認識単語について、対応付けされた参照単語と同じであれば「正」、そうでなければ「誤」とする、認識単語の正誤情報を付与した正誤情報付き認識単語列を出力する。
The word
認識単語列学習データ作成手段1331は、単語列対応付け手段1330で作成された正誤情報付き認識単語列に対して、識別モデルで用いる素性の抽出を行う。さらに、正誤情報付き認識単語列と、学習元データベースの参照単語列の固有表現ラベルとを比較し、対応させて、各認識単語がどの抽出対象情報に対応するかを示すラベル(固有表現ラベル)を付与し、認識単語列学習データ1510としてモデル学習用データベース151に格納する。
The recognition word string learning
認識確信度を除く素性の設計については、本実施形態では特に規定しないが、例としては非特許文献2に記載されている「単語」「品詞」「文字種」等が考えられる。
The feature design excluding the recognition certainty is not particularly defined in the present embodiment, but examples include “word”, “part of speech”, “character type”, and the like described in
図2は、認識確信度素性を追加して格納された認識単語列学習データの例を示す図である。なお、ここで付与されるラベル(抽出対象情報)は、以下に基づく。
-------
BEGIN:固有表現の最初の単語に付与されるラベル(人名-BEGIN等)
MIDDLE:固有表現の中間の単語に付与されるラベル(人名-MIDDLE等)
END:固有表現の最後の単語に付与されるラベル(人名-END等)
SINGLE:1単語から成る固有表現に付与されるラベル(人名-SINGLE等)
-------
図2では、ラベルの情報から、抽出対象情報として「地名」「人工物名」を指定して作成されていることが分かる。
FIG. 2 is a diagram illustrating an example of recognized word string learning data stored with the recognition certainty feature added. Note that the label (extraction target information) given here is based on the following.
-------
BEGIN: Label given to the first word of the proper expression (person name-BEGIN, etc.)
MIDDLE: Labels given to intermediate words in proper expressions (person names-MIDDLE, etc.)
END: Label given to the last word of the proper expression (person name-END, etc.)
SINGLE: A label attached to a unique expression consisting of one word (person name-SINGLE, etc.)
-------
In FIG. 2, it can be seen from the label information that “place name” and “artifact name” are designated as extraction target information.
本実施形態において、端末装置100は、認識単語が正しかった場合には、対応する参照単語に付与されているラベルをそのまま付与し、認識誤りであった場合には、その他のラベル(例えば、抽出すべき情報は含まれないことを示すラベル「対象外(OTHER)」等)を付与する。
抽出すべき情報が複数の単語に渡る場合には、その中に含まれる1単語でも認識誤りであれば、その中に含まれる他の単語についても同様に別種のラベル(対象外)を付与することも考えられる。例えば図2において、正しく認識された「京都」、「金閣寺」には、ラベルの情報としてそれぞれ「地名」、「人工物名」が付与されている。ここで、抽出すべき情報が「大宮」と「駅」の2語からなる「大宮駅」である場合に、「大宮駅」が誤認識によって「大宮行き」となっているので、「地名-BEGIN」の「大宮」は認識されている(認識確信度素性=「正」)が、「地名-END」の「駅」が誤認識されている(認識確信度素性=「誤」)ため、「地名-BEGIN」の「大宮」も含めて抽出対象外(つまり、ラベルの情報が「対象外」)となっている。
In the present embodiment, the
When the information to be extracted extends over a plurality of words, if even one word included in the information is a recognition error, another type of label (excluded) is similarly given to the other words included therein. It is also possible. For example, in FIG. 2, “Kyoto” and “Kinkakuji” that are correctly recognized are assigned “place name” and “artifact name” as label information, respectively. Here, if the information to be extracted is “Omiya Station” consisting of the two words “Omiya” and “Station”, “Omiya Station” is “bound to Omiya” due to misrecognition. BEGIN's "Omiya" is recognized (recognition certainty feature = "correct"), but "ge name-END""station" is misrecognized (recognition certainty feature = "false") Including “Omiya” of “Place name-BEGIN”, it is not subject to extraction (that is, the label information is “Not applicable”).
図1に戻り、参照単語列学習データ作成手段1332は、参照単語列において、識別モデルで用いる素性の抽出を行い、さらに認識確信度素性(すべての認識単語は正しいとして)を参照単語列に付与し、さらに固有表現ラベルを付与して、参照単語列学習データ1511としてモデル学習用DB151に格納する。
図3は、参照単語列学習データの例である。なお、内容は図2のものに対応している。
Returning to FIG. 1, the reference word string learning
FIG. 3 is an example of reference word string learning data. The contents correspond to those in FIG.
モデル作成部135はモデル作成手段1350を備え、このモデル作成手段1350は、識別モデルの学習用データ(符号1510,1511)を入力として、作成したモデル情報を出力する。
詳細には、モデル作成手段1350は、モデル学習用データベース151から学習データ(符号1510,1511)を読み込み、情報抽出時の入力データ中の単語列に対して、正しいラベル系列が付与できるように学習を行う。なお、識別モデルの種類およびその学習手法に関して、本実施形態では特に規定しないが、識別モデルとしてはSVM(サポートベクトルマシン)、最大エントロピーモデル、条件付き確率場(Conditional Random Fields)等が考えられる。なお、SVMを利用した技術としては、非特許文献2が挙げられる。
The
Specifically, the model creation means 1350 reads the learning data (
情報抽出部137は、元データに対する認識単語列・確信度を入力し、学習されたモデルの情報を用いて、認識単語列から情報抽出を行う。
情報抽出部137は、モデル作成部135で作成されたモデル情報1520を利用して認識単語列にラベル付与を行うラベル付与手段1370、指定された抽出対象情報に対応する情報抽出を、認識単語列から行う情報抽出手段1371とを備える。
The
The
ラベル付与手段(抽出対象情報付与手段)1370は、単語確信度計算手段1311からの確信度情報付き認識単語列を入力として、各認識単語がどのラベルに該当するかを、モデル情報1520を利用して算出し、算出した結果に基づいて、最適なラベルを付与する。識別モデルの利用に関しては、SVM、最大エントロピーモデル、条件付確率場等、モデルの種類に準じた技術を利用する。
図4は、情報抽出時の、元データの例として「アメリカの大統領官邸はホワイトハウス」を入力した場合に、ラベル付与手段1370によってラベル付与された結果の例を示した図である。
The label giving means (extraction target information giving means) 1370 receives the recognition word string with certainty information from the word certainty degree calculating means 1311 and uses the
FIG. 4 is a diagram showing an example of a result of label assignment by the
情報抽出手段1371は、ラベル付与手段1370で付与されたラベルを参照して、情報抽出を行う。例えば、図4に例示するラベル付与結果において、指定した抽出対象情報が“人工物名”であったとすると、単語「ホワイトハウス」を抽出する。
The
記憶手段150は、例えば、RAM(Random Access Memory)と、HDD(Hard Disk Drive)とを備える。この場合に、RAMは、制御手段130による演算処理等に利用されると共に、入出力手段110を介して取得した情報等を記憶し、HDDは、各種データベース、所定のプログラム、制御手段130の処理結果等を格納する。
The
また、記憶手段150は、前記した学習データ処理部133によって作成された、モデル学習用データベース(以下、「モデル学習用DB」と適宜記載)151と、モデル作成部135によって作成された、モデル情報データベース(以下、「モデル情報DB」と適宜記載)152とを備えている。
Further, the
モデル学習用DB151は、認識単語列学習データ1510と、参照単語列学習データ1511とを備える。認識単語列学習データ1510には、認識単語列から作成された学習データが格納されている。参照単語列学習データ1511には、参照単語列から作成された学習データが格納されている。
The
モデル情報DB152は、モデル情報1520として、クラス、素性、パラメータ等の情報が格納されている。
The
なお、前記した制御手段130が備える各手段1310〜1371は、CPUが記憶手段150のHDDに格納された所定のプログラムをRAMに展開して実行することにより実現されるものである。
Each of the
[情報抽出装置の動作]
図1に示した端末装置100の動作について、図5、図14を参照(適宜図1を参照)して説明する。図5は、図1に示した端末装置が行うモデル学習方法を示すフローチャートである。図14は、図1に示した端末装置が行う情報抽出方法を示すフローチャートである。モデル学習、情報抽出それぞれの処理について、新聞記事を読み上げた音声データからの固有表現抽出を例として説明する。
[Operation of information extraction device]
The operation of the
<モデル学習>
本実施形態で用いられる学習元データベース(学習元DB)には、形態素解析済みの新聞記事データ(参照単語列)、および当該新聞記事を読み上げた音声データ(元データ:1記事が1音声ファイルに対応)が含まれる。なお、学習元データベースは、請求項における学習用入力データに相当する。
<Model learning>
The learning source database (learning source DB) used in this embodiment includes newspaper article data (reference word string) that has been subjected to morphological analysis, and voice data that reads out the newspaper article (original data: one article into one voice file). Included). The learning source database corresponds to the learning input data in the claims.
参照単語列は、図6に例示するような形式で学習元DBに格納されており、1列目は正解単語列に相当する単語の情報(表層十読み+品詞情報)であり、2列目は抽出対象情報の例として固有表現ラベルの情報が示される。
固有表現ラベルとは、情報抽出時に用いるそれぞれの単語の特徴(属性)を示す情報であり、このラベルを参照することで、情報抽出時に単語の抽出が行われる。
The reference word string is stored in the learning source DB in the format illustrated in FIG. 6, and the first column is word information corresponding to the correct word string (surface layer ten reading + part of speech information). Indicates the information on the specific expression label as an example of the extraction target information.
The specific expression label is information indicating the characteristics (attributes) of each word used at the time of information extraction. By referring to this label, the word is extracted at the time of information extraction.
本実施形態では、固有表現ラベルの例として、人名,地名,組織名,人工物名,日付,時間,金額,割合の8種の固有表現ラベルが付与されている。なお、いずれにも属さない単語には「OTHER」のラベルが付与されている。また、複数単語に渡る固有表現を表すために、前記8種の固有表現ラベルに加え、以下の単語の位置に関する情報も含んだラベルを利用する(「OTHER」は除く)。
-------
BEGIN:固有表現の最初の単語に付与されるラベル(人名-BEGIN等)
MIDDLE:固有表現の中間の単語に付与されるラベル(人名-MIDDLE等)
END:固有表現の最後の単語に付与されるラベル(人名-END等)
SINGLE:1単語から成る固有表現に付与されるラベル(人名-SINGLE等)
-------
従って、本実施形態では8種類×4位置+OTHER、の33種類のラベルが存在する。
In the present embodiment, eight types of specific expression labels of person name, place name, organization name, artifact name, date, time, amount, and ratio are given as examples of the specific expression label. A word that does not belong to any of them is labeled “OTHER”. In addition, in order to represent a specific expression over a plurality of words, in addition to the eight types of specific expression labels, a label including information on the position of the following words is used (except “OTHER”).
-------
BEGIN: Label given to the first word of the proper expression (person name-BEGIN, etc.)
MIDDLE: Labels given to intermediate words in proper expressions (person names-MIDDLE, etc.)
END: Label given to the last word of the proper expression (person name-END, etc.)
SINGLE: A label attached to a unique expression consisting of one word (person name-SINGLE, etc.)
-------
Accordingly, in this embodiment, there are 33 types of labels of 8 types × 4 positions + OTHER.
端末装置100は、データ入力手段111を介して学習用入力データを取得し、記憶手段150に学習元DBとして格納する。そして、認識部131は、学習元DBに含まれる元データ(音声データ)および参照単語列を取得する。
The
単語列認識手段1310は、元データ(音声データ)を入力として、公知の技術である音声認識技術を用いて認識を行う(S1:単語列認識ステップ)。認識した結果は、図7のような認識単語列の形式で得られる。
The word
図7に例示した認識単語列において、符号701には認識1位候補の単語列が示され、符号702には単語列のスコア(「-30922.7」)と、その内訳(音響モデルのスコア(「AM=-35053.9」)、言語モデルのスコア(「LM=4131.28」))が示されている。
In the recognition word string illustrated in FIG. 7, the
続いて、単語列対応付け手段1330が、学習元DBの参照単語列(正解単語列)、およびステップS1で得られた認識単語列の対応付けを行い、それに基づいて正誤情報付き認識単語列を作成する(S2:単語列対応付けステップ)。
具体的には、まず、単語列対応付け手段1330が、認識単語列と参照単語列(正解単語列)とを比較し、対応付けを行う。図8は、対応付け結果を示した図である。1列目が参照単語列(参照単語側)、2列目が認識単語列(認識単語側)であり、対応する単語がない部分(認識時に単語が挿入・脱落した箇所)には(null)が記されている。
そして、単語列対応付け手段1330は、図8に示される単語列対応付け結果の情報を用いて、参照単語側の単語と認識単語側の単語とが一致するものには「正」、そうでないもの(つまり、(null)又は不一致)には「誤」の情報を認識単語列に付与することで、図9に示す正誤情報付き認識単語列を作成する。
Subsequently, the word
Specifically, first, the word
The word
続いて、認識単語列学習データ作成手段1331は、参照単語列に付与された抽出対象情報を示すラベル(固有表現ラベル)と、正誤情報付き認識単語列とを、公知技術であるDPマッチング等の方法を用いて対応させることで、図10に示す認識単語列学習データを作成する(S3:認識単語列学習データ作成ステップ)。
Subsequently, the recognized word string learning
本実施形態で利用する単語の素性の例として、以下の4つを用いる。
-------
単語表層素性
品詞素性
文字種素性(ひらがな、カタカナ、漢字一文字、漢字、等)
認識確信度素性(学習データでは対応付け結果から得られる認識単語の正誤情報)
-------
The following four are used as examples of word features used in the present embodiment.
-------
Word surface features Part-of-speech features Character type features (Hiragana, Katakana, single kanji, kanji, etc.)
Recognition certainty feature (correction information of recognition word obtained from matching result in learning data)
-------
つまり、認識単語列学習データ作成手段1331は、対応の結果、これらの素性と、固有表現ラベルとを認識単語列に付与することで、認識単語列学習データを作成する。
That is, the recognized word string learning
図10に示される認識単語列学習データにおいて、1列目は単語表層素性、2列目は品詞素性、3列目は文字種素性、4列目は認識確信度素性、5列目は固有表現ラベルである。 In the recognition word string learning data shown in FIG. 10, the first column is a word surface feature, the second column is a part of speech feature, the third column is a character type feature, the fourth column is a recognition certainty feature, and the fifth column is a specific expression label. It is.
本実施形態では、認識単語列において、固有表現が認識誤りを含む場合は、当該固有表現に対応する認識単語に対しては、すべて、固有表現でない(OTHER)ラベルを付与する。 In the present embodiment, when the unique expression includes a recognition error in the recognized word string, all of the recognized words corresponding to the specific expression are assigned labels other than the unique expression (OTHER).
つまり、例えば、入力データにおける「村山富市」という人名は、認識単語列において「村山」「氏」「に」「位置」「し」「使用」と図10に示されているように、認識誤りを起こしている。この「村山富市」では、参照単語列(図6参照)の固有表現ラベルにおいて、「人名-BEGIN」から「人名-END」までが人名を示すものである。図10で、「富市」が認識誤りを起こして別の単語に置き換わってしまっているため、「村山」は認識確信度素性で「正」となっているが、該当する「人名-BEGIN」の固有表現ラベルは付与されておらず、「OTHER」が付与されている。 That is, for example, the person name “Murayama Tomi City” in the input data is recognized as “Murayama” “Mr.” “Ni” “Position” “Sh” “Use” in the recognition word string as shown in FIG. It is causing an error. In this “Murayama Tomi City”, “person name-BEGIN” to “person name-END” indicate person names in the unique expression label of the reference word string (see FIG. 6). In FIG. 10, “Tomiichi” caused a recognition error and was replaced with another word, so “Murayama” is “positive” in the recognition confidence feature, but the corresponding “person name-BEGIN” The unique expression label is not attached, and “OTHER” is assigned.
認識単語列学習データ作成手段1331は、作成した認識単語列学習データを、記憶手段150のモデル学習用DB151に、認識単語列学習データ1510として格納する。
なお、図5に示すモデル学習用データベースの認識単語列学習データ内の情報と、図10に示す認識単語列学習データの含む情報とは、認識単語列=単語表層素性、素性=(品詞素性、文字種素性)、正誤情報=認識確信度素性、抽出対象情報=固有表現ラベル、というように対応している。
The recognized word string learning
Note that the information in the recognition word string learning data of the model learning database shown in FIG. 5 and the information included in the recognition word string learning data shown in FIG. 10 are: recognition word string = word surface layer feature, feature = (part of speech feature, (Character type feature), correct / incorrect information = recognition certainty feature, extraction target information = specific expression label, and so on.
参照単語列学習データ作成手段1332は、参照単語列に対して、認識単語列学習データ1510と同様の素性と、認識確信度素性を付与した参照単語列学習データを作成する(S4:参照単語列学習データ作成ステップ)。その際、参照単語列においてはすべての単語が正しい認識単語と考えられるため、すべての単語に対して認識確信度素性は「正」となる。図11は、参照単語列学習データ作成手段1332が作成した参照単語列学習データの例を示す図である。
The reference word string learning
参照単語列学習データ作成手段1332は、作成した参照単語列学習データを、記憶手段150のモデル学習用DB151に、参照単語列学習データ1511として格納する。
なお、図5に示すモデル学習用データベースの参照単語列学習データ内の情報と、図11に示す参照単語列学習データの含む情報とは、参照単語列=単語表層素性、素性=(品詞素性、文字種素性)、正誤情報=認識確信度素性、抽出対象情報=固有表現ラベル、というように対応している。
The reference word string learning
Note that the information in the reference word string learning data of the model learning database shown in FIG. 5 and the information included in the reference word string learning data shown in FIG. 11 are: reference word string = word surface layer feature, feature = (part of speech feature, (Character type feature), correct / incorrect information = recognition certainty feature, extraction target information = specific expression label, and so on.
続いて、モデル作成部135のモデル作成手段1350が、認識単語列学習データ1510および参照単語列学習データ1511を用いて、モデル情報を作成する(S5:モデル作成ステップ)。
Subsequently, the
本実施形態では、固有表現抽出のための識別モデルとして、公知の技術であるSVMを利用する。SVMの実装として、フリーソフトウェアとして公開されているTinySVMを、また、モデル作成手段1350を実現するために、フリーソフトウェアとして公開されているYamChaを利用する。 In the present embodiment, SVM, which is a well-known technique, is used as an identification model for extracting a specific expression. As implementation of SVM, TinySVM published as free software is used, and YamCha published as free software is used to realize the model creation means 1350.
SVMは2値分類器であるため、固有表現抽出のような、多クラスヘの分類問題にそのまま適用することはできない。そのため、各クラスに属するか否かを分類するSVMをクラスごとに作成し、多クラスへの分類はそれらのSVMすべての結果から、最も高いスコアを示したクラスを正解とする、one-against-all(あるいはone-versus-rest)と呼ばれる方法を用いた。YamChaは、学習データから自動的にone-against-allによる各SVMごとの学習データを作成し、TinySVMによってSVMを学習し、最終的に(本実施形態では33個の)SVMのパラメータをまとめて1つのファイルに、モデル情報1520として格納する。また、本実施形態では、ラベル付与対象の単語の素性(4種類)に加え、前後2単語ずつの素性(4種類×4単語=16種類)も同時に利用する。YamChaのオプションでは、「F:-2..2:0..」ならびに「MULTI_CLASS=2」に相当する。
Since SVM is a binary classifier, it cannot be directly applied to a multi-class classification problem such as eigenexpression extraction. Therefore, an SVM that classifies whether or not it belongs to each class is created for each class, and the classification to multiple classes is based on the result of all those SVMs, and the class showing the highest score is the correct one-against- A method called all (or one-versus-rest) was used. YamCha automatically creates learning data for each SVM by one-against-all from the learning data, learns SVM by TinySVM, and finally summarizes the parameters of SVM (33 in this embodiment). The
固有表現抽出のためのSVMのカーネルは2次の多項式カーネルとし、ソフトマージンは「0.1」に設定する。TinySVMのオプションでは「-d 2 -C 0.1」に相当する。 The SVM kernel for extracting the specific expression is a second-order polynomial kernel, and the soft margin is set to “0.1”. It corresponds to “-d 2 -C 0.1” in the TinySVM option.
その結果、図12に例示するように、モデル情報(クラス・素性記述部)がモデル情報1520として書き出される。
ここでは、まず、すべてのSVMで共通に利用される情報が図12のように書き出される。
ClassList:では、情報抽出のためにこのモデル情報によって付与されるラベルの一覧が出力されている。
続いて、素性番号の定義が出力されている。例えば、素性18番は、自身の単語表層(「F」は素性であること、「+0」は単語の位置、「0」は学習データにおける列の位置を表す)が「AP通信」であることを示している。
例えば、図11に示す参照単語列学習データにおいて、最初の単語(単語表層素性「村山」)に固有表現ラベルを付与するための素性を説明すると、その1つ後の単語(単語表層素性「富市」)の品詞素性「名詞-固有名詞」が図12のモデル情報で表現される場合、「F:+1:1:名詞-固有名詞」と示される。同様に、2つ後の単語(単語表層素性「首相」)の文字種素性「漢字」がモデル情報で表現される場合、「F:+2:2:漢字」と示される。
As a result, model information (class / feature description portion) is written as
Here, first, information that is commonly used in all SVMs is written as shown in FIG.
In ClassList :, a list of labels given by the model information for information extraction is output.
Subsequently, feature number definitions are output. For example, in the feature No. 18, its own word surface layer (“F” is a feature, “+0” is a word position, “0” is a column position in learning data) is “AP communication”. It is shown that.
For example, in the reference word string learning data shown in FIG. 11, a feature for giving a specific expression label to the first word (word surface feature “Murayama”) will be described. The next word (word surface feature “rich” When the part-of-speech feature “noun-proper noun” of “city” is represented by the model information of FIG. 12, it is indicated as “F: +1: 1: noun-proper noun”. Similarly, when the character type feature “kanji” of the next word (word surface feature “prime”) is expressed by model information, “F: +2: 2: kanji” is indicated.
それに続いて、図13に例示するように、各SVMで利用される、学習データ中の各クラスに属するか否かを判別するためのSVMのパラメータ(サポートベクトルとその重み等)がモデル情報1520に追加して書き出される。
図13において、符号1301は、ある単語が「人工物名-BEGIN」というラベルに分類されるか否かを判定するSVMのパラメータの一部を示している。符号1302は、各行がサポートベクトルを表し、最初にサポートベクトルの重み、その後にそのサポートベクトルの持つ素性番号と素性値の一覧が出力されている。
Subsequently, as illustrated in FIG. 13,
In FIG. 13,
以上の処理により、モデル情報1520が作成される。なお、新たな学習元データが入力された場合には、ステップS1〜S5の処理を行うことで、モデル情報DB152に格納されるモデル情報1520が更新される。具体的には、図13に示すモデル情報のパラメータ部分が更新され、新しいラベルが追加された場合や、新しい単語が追加された場合には、図12の情報も併せて更新されることとなる。
つまり、正誤情報およびラベルの情報を含むモデル情報を作成することができ、情報抽出時の精度が向上する。この実験結果については、後記する。
The
That is, model information including correct / incorrect information and label information can be created, and the accuracy in extracting information is improved. The results of this experiment will be described later.
<情報抽出>
ここでは、図14を用いて情報抽出の処理を説明する。なお、端末装置100には、図5のステップS1〜S5によって、予めモデル情報1520が格納されているものとする。なお、情報抽出のための元データ(入力データ)として「米国がアヘン戦争で香港を占領」を使用する。
<Information extraction>
Here, the information extraction process will be described with reference to FIG. It is assumed that the
まず、単語列認識手段1310が、入出力手段110を介して取得した元データ(入力データ)を用いて、単語ラティスを作成する(S11:単語列認識ステップ)。
First, word
図15は、単語列認識手段1310が作成した単語ラティスの例を示す図である。本実施形態における単語ラティスは、重みつき有限状態トランスデューサ(WFST:weighted finite state transducer)の形式をとっており、各行が状態遷移を表す表記となっている。1列目は遷移元状態番号、2列目は遷移先状態番号、3〜4列目はこの状態遷移に対応する音声中の時刻フレーム(音声ファイルのスタート時点が「0」、時刻「1」が20msに対応)、5列目は入力記号(ここではすべて「eps」:入力記号なし)、6列目は出力記号(認識単語)、7列目は状態遷移重み(スコア)である。
FIG. 15 is a diagram illustrating an example of a word lattice created by the word
続いて、単語確信度計算手段1311が単語ラティスを用いて確信度計算を行い、確信度情報付き認識単語列を作成する(S12:単語確信度計算ステップ)。
ここでの単語の確信度の計算方法として、本実施形態では、SVMを用いた確信度計算方法を利用するが、正解/不正解のラベルが付与できるものであれば、この方法に限るものではない。
また、単語確信度計算のための素性は、例として以下のものを用いる。
-------
単語表層
品詞番号
単語事後確率(10段階に分割:(1)0より大きく0.1以下,(2)0.1より大きく0.2以下,…,(10)0.9より大きく1.0以下)
-------
Subsequently, the word certainty calculation means 1311 performs certainty calculation using the word lattice, and creates a recognized word string with certainty information (S12: word certainty calculation step).
In this embodiment, the certainty factor calculation method using SVM is used as a method for calculating the certainty factor of the word here. However, the method is not limited to this method as long as a correct / incorrect answer label can be assigned. Absent.
In addition, as features for calculating the word certainty factor, the following is used as an example.
-------
Word surface layer Part of speech number Word posterior probability (divided into 10 levels: (1) greater than 0 and less than 0.1, (2) greater than 0.1 and less than 0.2, ..., (10) greater than 0.9 and less than 1.0)
-------
本実施形態では、固有表現抽出のためのモデル作成時と同様、前後2単語についての前記素性も同時に利用する。そして、単語事後確率の計算は、前記した参考文献2に記載の、単語グラフを用いた事後確率計算方法を利用する。そして、単語事後確率素性等の情報を用いた単語確信度計算のSVMの実装にも、YamChaとTinySVMを用い、各認識単語が正しい(CORRECT)か誤り(ERROR)かを判別するようなSVMを、図16に例示する単語確信度計算用SVM学習データを用いて学習(作成)する。なお、単語事後確率および単語確信度の計算は、別の方法を用いてもよい。その場合、図16に例示する単語確信度計算用SVM学習データは不要としてもよい。
In the present embodiment, the features for the two words before and after are also used at the same time as when creating a model for extracting a specific expression. The calculation of the word posterior probability uses the posterior probability calculation method using the word graph described in
ここで、図16に例示する単語確信度計算用SVM学習データを認識単語列学習データ作成手段1331が生成する処理の一例を説明する。
モデル学習時に、単語列認識手段1310が、元データを用いて単語ラティスを作成する。
そして、認識単語列学習データ作成手段1331が、単語列認識手段1310から受信した単語ラティスと、正誤情報付き認識単語列(図9参照)とを用いて、単語確信度計算用SVM学習データ(図16参照)を作成する。なお、単語確信度計算用SVM学習データ(図16参照)における「正解/不正解のラベル」は、正誤情報付き認識単語列(図9参照)における正誤情報に対応して付与される。
Here, an example of processing in which the recognized word string learning
During model learning, the word
Then, the recognition word string learning data creation means 1331 uses the word lattice received from the word string recognition means 1310 and the recognition word string with correct / incorrect information (see FIG. 9) to calculate word confidence SVM learning data (see FIG. 9). 16). The “correct / incorrect label” in the SVM learning data for word certainty calculation (see FIG. 16) is given in correspondence with the correct / incorrect information in the recognized word string with correct / incorrect information (see FIG. 9).
単語確信度計算用SVM学習データによる学習は、2値の分類問題であるので、one-against-allを利用する必要はなく、CORRECT(正解)か否かを判別する、1つのSVMを学習すればよい。本実施形態では、単語確信度計算のためのSVMのカーネルは2次の多項式カーネルとし、ソフトマージンは「0.01」に設定する。TinySVMのオプションでは、「-d 2 -C 0.01」に相当する。 Learning with SVM learning data for word certainty calculation is a binary classification problem, so there is no need to use one-against-all, and one SVM that determines whether or not CORRECT (correct answer) is learned. That's fine. In this embodiment, the SVM kernel for calculating word certainty is a second-order polynomial kernel, and the soft margin is set to “0.01”. In TinySVM options, this is equivalent to "-d 2 -C 0.01".
単語確信度計算用SVM学習データを用いて学習されたSVMのパラメータは、モデル学習時のモデル作成手段1350の処理と同様に、モデル情報DB152に格納される。
The SVM parameters learned using the word certainty calculation SVM learning data are stored in the
なお、前記のとおり、単語確信度計算用SVM学習データ(図16参照)を生成し、モデル情報DB152に格納する処理は、ステップS12でSVMを用いたことによるために行ったものであり、他の方法を用いる場合は省略可能である。
As described above, the process of generating the SVM learning data for calculating word certainty (see FIG. 16) and storing it in the
情報抽出時に、単語列認識手段1310から単語ラティスが入力されたら、単語確信度計算手段1311は、単語確信度計算のための単語事後確率素性を付与した単語確信度計算用認識単語列データを作成する。図17は、単語確信度計算用認識単語列データの例を示す図である。この単語確信度計算用認識単語列データ(「あれ」は「アヘン」の誤認識)をYamChaに入力すると、前記単語確信度計算用SVM学習データからモデル情報が作成され、格納されたSVMのパラメータを用いて、図18の単語確信度計算結果に示す出力が得られる。図17のデータから追加された列は、CORRECTであると判別されるスコアと、ERRORであると判別されるスコア(「CORRECT」の場合のスコアの符号反転)であり、抽出対象情報の確信度に相当する。続いて、本実施形態では、SVMの出力スコアsを、式(2)に示すシグモイド関数を用い、スコアを0から1の範囲の値に正規化したスコアc(s)を、認識単語の確信度として用いる。
図18における「正解/不正解のスコア」の「CORRECT」のスコアを、式(2)を用いて正規化した値を、図19に示す。 FIG. 19 shows values obtained by normalizing the score of “CORRECT” of “Score of correct / incorrect answer” in FIG. 18 using Expression (2).
確信度素性の決定で利用する閾値に、本実施形態では「0.4」を用いて、正規化した値を判別し、閾値以上であれば「正」、そうでない場合は「誤」という情報を付与して、認識確信度素性として追加する。その結果を確信度情報付き認識単語列として図20に示す。以上の手続により、単語確信度計算手段1311によって、単語ラティスからなる認識単語列に、認識確信度を含む素性が付与されたデータが作成される。
以上の処理によって、入力データの認識単語列に、正誤情報が付与される。
In the present embodiment, “0.4” is used as the threshold value used in determining the certainty factor feature, and the normalized value is determined. If the threshold value is equal to or greater than the threshold value, information “correct” is given and information “error” is given otherwise. And added as a recognition certainty feature. The result is shown in FIG. 20 as a recognized word string with certainty information. Through the above procedure, the word certainty
Through the above processing, correct / incorrect information is added to the recognized word string of the input data.
続いて、ラベル付与手段1370は、単語確信度計算手段1311から入力された確信度情報付き認識単語列(図20参照)に対し、ラベル付与を行う(S13:抽出対象情報付与ステップ)。
具体的には、単語確信度計算手段1311から、ラベル付与手段1370に、確信度情報付き認識単語列(図20参照)が入力される。そして、ラベル付与手段1370は、モデル作成手段1350で作成した(図5のステップS5)モデル情報1520を利用して、入力された確信度情報付き認識単語列に対し、例えばSVMを用いてラベル付与を行う。その結果は、図21のように出力される。図20と比較して追加された部分は、ラベルとそのラベルのスコア(各SVMの出力スコア)である。なお、すべての出力ラベルについてのスコアが出力されるが、図21の例では、3位候補以降の出力ラベルについては省略して示してある。
Subsequently, the
Specifically, a recognition word string with certainty factor information (see FIG. 20) is input from the word certainty
図21の出力をそのままラベル付与結果として利用すると、ラベル列として不整合が起こりうる(「米国」であれば、「地名-BEGIN」の後に「人工物名-BEGIN」が来る、等)ため、以下のようにして、ラベルの連接の制約を満たす最適なラベル系列を得る。 If the output of FIG. 21 is used as a labeling result as it is, an inconsistency may occur as a label string (in the case of “USA”, “artificial name-BEGIN” comes after “place name-BEGIN”, etc.). In the following manner, an optimum label sequence satisfying the label concatenation constraint is obtained.
まず、シグモイド関数(式(2)参照)により、ラベルのスコアsを0から1の範囲の値に正規化する。その後、公知のViterbiアルゴリズム等により、正規化されたスコアc(s)の和が最大となるようなラベル系列を選択する(非特許文献2参照)。この手続きによって、前記のYamChaの出力を補正し、図22に例示するような結果を得る。 First, the label score s is normalized to a value in the range of 0 to 1 using a sigmoid function (see equation (2)). Thereafter, a label sequence that maximizes the sum of normalized scores c (s) is selected by a known Viterbi algorithm or the like (see Non-Patent Document 2). By this procedure, the output of the above-mentioned YamCha is corrected, and the result as illustrated in FIG. 22 is obtained.
続いて、情報抽出手段1371は、ラベル付与手段1370の出力から、固有表現に相当する部分(「BEGIN」から「END」まで、又は「SINGLE」)を抽出する(S14:情報抽出ステップ)。抽出した情報を、適宜データ出力手段115を介して出力する。
例えば、図22に例示したデータの場合は、固有表現ラベルが付与されている
-------
米国 地名
香港 地名
-------
が出力される。
Subsequently, the
For example, in the case of the data illustrated in FIG. 22, a specific expression label is given.
-------
United States Place name Hong Kong Place name
-------
Is output.
本実施形態によれば、識別モデルにおいて、認識単語列学習データ1510および参照単語列学習データ1511それぞれに、各認識単語が正しいか否かを表す2値の素性(認識確信度素性)を正誤情報として含ませる構成としたことで、精度の高いモデル情報を作成し、そのモデル情報を用いた情報抽出時に、正誤情報を用いて情報抽出を実施することができる。それにより、認識誤りの影響を軽減させることができる。つまり、元データで誤認識された単語素性「あれ」は、出力ラベル(OTHER)によって固有表現として抽出されることはない。
また、正しく認識された単語だけでなく、誤認識された単語についても、単語の持つ様々な素性情報を利用することができる。
According to the present embodiment, in the identification model, each of the recognized word
In addition, not only correctly recognized words but also misrecognized words, various feature information of the words can be used.
なお、端末装置100は、前記したステップS1〜S5を一般的なコンピュータに実行させる、モデル学習プログラム実行することでも実現できる。また、端末装置100は、前記したステップS11〜S14を一般的なコンピュータに実行させる、情報抽出プログラム実行することでも実現できる。これらのプログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
The
[実験]
本実施形態に示した方法による実験の方法および結果を以下に示す。
[Experiment]
The method and results of the experiment by the method shown in this embodiment are shown below.
<実験条件>
・元データ:新聞記事の読み上げ音声(1,174記事,10,718文,読み上げ者106名(1名あたり約100文))
・参照単語列:前記新聞記事の文書データ(括弧等の読まない記号は削除し、数字はすべて漢数字に置換)
・抽出対象情報:参照単語列中の固有表現(人工物名,組織名,地名,人名,日付,時間表,金額,割合)計約19,000
<Experimental conditions>
・ Original data: Speech readings of newspaper articles (1,174 articles, 10,718 sentences, 106 readers (about 100 sentences per person))
-Reference word string: Document data of the newspaper article (letters that cannot be read such as parentheses are deleted, and all numbers are replaced with Chinese numerals)
-Information to be extracted: Specific expressions (artifact names, organization names, place names, person names, dates, timetables, monetary values, ratios) in the reference word string, total approximately 19,000
参照単語列の文書データは、公知の日本語形態素解析器「茶筌」によって形態素解析を行い、単語区切りと品詞情報を与えたものである。
単語文字種としては、“漢字一文字”(漢字一文字)、“漢字”(一文字以上の漢字のみ)、“ひらがな”(ひらがなのみ)、“カタカナ”(カタカナのみ)、“数字”(数字のみ)、“大文字一文字”(英字大文字一文字)、“大文字”(英字大文字のみ)、“大文字開始”(英字で最初の一文字のみが大文字)、“英字”(英字のみのその他の単語)、“その他”(その他の単語)を用いた。
The document data of the reference word string is obtained by performing morphological analysis using a well-known Japanese morphological analyzer “tea bowl” and giving word break and part of speech information.
The word character types are “one Kanji character” (one Kanji character), “Kanji” (only one or more Kanji characters), “Hiragana” (Hiragana only), “Katakana” (only Katakana), “numbers” (numbers only), “ "Uppercase one letter" (English uppercase one letter), "Uppercase" (English uppercase only), "Uppercase start" (Only the first letter is uppercase), "English" (other words only in English letters), "Other" (Other ).
認識単語列作成のために利用した音声認識器は、別の読み上げ音声で作成した音響モデルと、別の新聞記事データから作成した単語トライグラムモデルを利用した。音声認識時の言語モデル重みは「15」に設定した。
この条件での10,718文の読み上げ音声に対する単語認識精度は79.45%であり、音声認識結果の中には82.0%の固有表現が残っていた。
The speech recognizer used for creating the recognition word string used an acoustic model created with another reading speech and a word trigram model created from another newspaper article data. The language model weight for speech recognition was set to “15”.
Under this condition, the word recognition accuracy for reading speech of 10,718 sentences was 79.45%, and 82.0% specific expressions remained in the speech recognition result.
<評価指標>
評価の指標には、当該分野で一般的に用いられている、固有表現のF値を用いた。F値とは適合率と再現率の調和平均であり、適合率と再現率はそれぞれ以下の式(3)、式(4)のように表される。
As an evaluation index, an F value of proper expression, which is generally used in the field, was used. The F value is a harmonic average of the precision and the recall, and the precision and the recall are represented by the following formulas (3) and (4), respectively.
抽出された固有表現は、音声認識が正しく行われて単語の誤りがなく、単語の過不足がなく、また、固有表現ラベル(人名、地名、等)が正しかった場合を正解とし、そうでない場合は誤りとした。 The extracted proper expression is correct when speech recognition is correctly performed, there are no word errors, there are no words in excess or shortage, and the proper expression label (person name, place name, etc.) is correct. Was an error.
<比較した手法>
(1)確信度情報なし:確信度の情報を用いず、テキストデータ(参照単語列)のみから固有表現抽出を行う方法(非特許文献2に相当)。音声認識結果をテキストとして利用。
(2)比較例(A):確信度の情報を利用。学習データにおいてテキストデータ(参照単語列)を用いない。
(3)比較例(B):確信度の情報を利用。学習・テスキトデータにおいて、認識確信度素性が「誤」であるとき、単語素性・品詞素性・文字種素性を用いない(「誤認識した単語」という情報を用いた)。
(4)本実施形態:確信度の情報を利用。本実施形態の全機能を使用。
(5)本実施形態上限値:認識単語の正誤が誤りなく得られたと仮定した場合の本実施形態の方法。本実施形態で得られる性能の上限。
<Compared method>
(1) No certainty information: A method of extracting a specific expression from only text data (reference word string) without using certainty information (corresponding to Non-Patent Document 2). Use speech recognition results as text.
(2) Comparative example (A): Utilization of confidence information. Text data (reference word string) is not used in learning data.
(3) Comparative Example (B): Utilization of certainty information. In the learning / tesquite data, when the recognition certainty feature is “false”, the word feature / part-of-speech feature / character type feature is not used (the information “misrecognized word” is used).
(4) This embodiment: Uses certainty factor information. All functions of this embodiment are used.
(5) Upper limit value of the present embodiment: The method according to the present embodiment when it is assumed that the correctness of the recognized word is obtained without error. Upper limit of performance obtained in this embodiment.
<実験結果>
実験結果を図23に示す。
確信度情報を利用しない場合(確信度情報なし)と比較して、本実施形態はF値で2.0%ほど高い性能を示している。この性能向上は、適合率の7.4%の向上(再現率は1.9%低下)によるものである。
<Experimental result>
The experimental results are shown in FIG.
Compared with the case where the certainty factor information is not used (there is no certainty factor information), the present embodiment shows a performance as high as 2.0% in terms of the F value. This performance improvement is due to a 7.4% improvement in precision (reproduction rate is reduced by 1.9%).
比較例(A)は、本実施形態には劣るものの、確信度情報を利用することによってF値を0.7%向上できている。比較例(A)が本実施形態に劣る理由として、比較例(A)においてはテキストデータ(参照単語列)をモデルの学習に利用していないので、固有表現に相当する部分が、音声認識の誤りによって失われているような箇所において学習データが不足しているためと考えられる。つまり、認識確信度を識別モデルに導入することによる本実施形態の効果は、参照単語列のデータも誤りのない認識単語列のデータとしてモデルの学習に用いる(また、そのために認識確信度を連続値ではなく2値化する)という枠組みを導入することによって、さらなる改善を得られることを確認した。 Although the comparative example (A) is inferior to the present embodiment, the F value can be improved by 0.7% by using the certainty factor information. As a reason why the comparative example (A) is inferior to the present embodiment, the text data (reference word string) is not used for learning the model in the comparative example (A). This is thought to be due to the lack of learning data in places that are lost due to errors. That is, the effect of this embodiment by introducing the recognition certainty factor into the identification model is that the reference word string data is also used for learning the model as the recognition word string data with no error (and the recognition certainty factor is continuously used for that purpose). It was confirmed that further improvement could be obtained by introducing a framework of binarization instead of value.
比較例(B)は、ほぼ本実施形態に近いが、本実施形態と比較して若干(F値で0.3%、適合率で0.6%)劣る。その理由として、本実施形態では、比較例(B)よりも多くの情報(誤認識した単語に関する素性)を利用しており、こうした素性を利用することが本実施形態の性能改善に貢献していることが認められた。こうした素性は、従来生成モデルを用いた固有表現抽出手法では用いることが難しかったため、本実施形態を用いることによって初めてその効果を得られるようになったものである。 The comparative example (B) is almost similar to the present embodiment, but is slightly inferior to the present embodiment (0.3% in F value and 0.6% in conformity). The reason for this is that this embodiment uses more information (features related to misrecognized words) than the comparative example (B), and the use of such features contributes to the performance improvement of this embodiment. It was recognized that Such a feature has been difficult to use in a conventional method for extracting a specific expression using a generated model. Therefore, the effect can be obtained only by using this embodiment.
本実施形態では認識確信度の情報を利用することで、認識が誤っている可能性の高い単語を考慮して固有表現抽出を行うことができる。そのため、誤認識の単語を固有表現に含めて抽出してしまうことを防ぐことができ、それが適合率の向上につながったものと考えられる。また、認識確信度の正確性の向上により、情報抽出分野においてさらなる性能向上が期待できることを、「本実施形態上限値」の結果が示唆している。 In the present embodiment, by using the recognition certainty information, it is possible to perform specific expression extraction in consideration of words that are likely to be erroneously recognized. For this reason, it is possible to prevent misrecognized words from being extracted by including them in the proper expression, which is considered to have led to an improvement in the precision. Further, the result of the “upper limit value of the present embodiment” suggests that further improvement in performance can be expected in the information extraction field by improving the accuracy of recognition confidence.
以上説明したように、本実施形態によれば、識別モデルを用いて、認識誤りを正誤の2値の素性情報とすることで、参照単語列と認識単語列との比較を行い、識別モデルの学習を行うことで、情報抽出時の精度を高めることが可能となる。また、誤認識した単語に関する素性も、利用可能である。 As described above, according to the present embodiment, by using the identification model, the recognition error is converted into correct and incorrect binary feature information, and the reference word string is compared with the recognized word string. By performing learning, it is possible to improve accuracy during information extraction. In addition, features related to misrecognized words can also be used.
以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、本実施形態において、単語の素性やラベルの種類、内容については、自由に設定可能である。
また、利用した公知技術による手法についても、これに限るものではなく、他の方法を用いて実施しても何ら問題ない。
また、適用できる技術分野においても、情報検索システム、自然言語処理システム、音声処理システム以外にも、様々な分野で適用可能である。
As mentioned above, although embodiment of this invention was described, this invention is not limited to this, It can implement in the range which does not change the meaning. For example, in this embodiment, word features, label types, and contents can be freely set.
In addition, the technique using the known technique is not limited to this, and there is no problem even if it is carried out using another method.
Also, in the applicable technical field, the present invention can be applied in various fields other than the information search system, the natural language processing system, and the speech processing system.
100 端末装置(モデル学習装置、情報抽出装置)
110 入出力手段
111 データ入力手段
115 データ出力手段
130 制御手段
131 認識部
133 学習データ処理部
135 モデル作成部
137 情報抽出部
150 記憶手段
151 モデル学習用データベース
152 モデル情報データベース
1310 単語列認識手段
1311 単語確信度計算手段
1330 単語列対応付け手段
1331 認識単語列学習データ作成手段
1332 参照単語列学習データ作成手段
1350 モデル作成手段
1370 ラベル付与手段(抽出情報付与手段)
1371 情報抽出手段
1510 認識単語列学習データ
1511 参照単語列学習データ
1520 モデル情報
100 terminal device (model learning device, information extraction device)
DESCRIPTION OF
1371 Information extraction means 1510 Recognition word
Claims (7)
音声または文字のデータであるモデル学習用のデータを、音声認識または文字認識により認識した単語の列を認識単語列とし、かつ、前記モデル学習用のデータに対応する正しい認識結果である単語列中の各単語に対して当該単語の種別を示す正しいラベルが付与された単語列を参照単語列としたときに、
前記モデル情報を学習するモデル学習装置が、
前記認識単語列の各単語と前記参照単語列中の各単語とを比較して、前記参照単語列と一致する前記認識単語列中の単語には認識結果が正しいことを示す情報を認識確信度として付与し、前記参照単語列と一致しない前記認識単語列中の単語には認識結果が誤りであること示す情報を認識確信度として付与することで、認識確信度を備えた正誤情報つき認識単語列を生成する単語列対応付けステップと、
前記正誤情報つき認識単語列と前記参照単語列とを比較し、前記参照単語列と一致する前記正誤情報つき認識単語列中の各単語に、当該単語と一致した前記参照単語列に付与されたラベルを付与することで、認識確信度とラベルとを備えた認識単語列学習データを作成する認識単語列学習データ作成ステップと、
前記参照単語列中の各単語に、認識結果が正しいことを示す情報を前記認識確信度として付与することで、認識確信度とラベルとを備えた参照単語列学習データを作成する参照単語列学習データ作成ステップと、
前記認識単語列学習データおよび前記参照単語列学習データを入力として、サポートベクトルマシン、最大エントロピーモデル、または条件付き確率場を用いて、少なくとも前記認識確信度を素性として、前記入力された音声または文字のデータに含まれる各単語に対して最適な単語の種別を示すラベルを付与するための前記モデル情報を学習し、記憶手段に格納するモデル作成ステップと
を含むことを特徴とするモデル学習方法。 A model learning method for learning model information for providing a label indicating a word type for each word included in input speech or character data ,
The model learning data, which is speech or character data, is a recognition word string that is a word string recognized by speech recognition or character recognition, and is a correct recognition result corresponding to the model learning data. When a word string to which a correct label indicating the type of the word is assigned to each word is used as a reference word string,
A model learning device for learning the model information,
Recognize certainty information by comparing each word in the recognized word string with each word in the reference word string and indicating that the recognition result is correct for the word in the recognized word string that matches the reference word string The recognition word with correct / incorrect information having the recognition certainty is given to the word in the recognition word string that does not match the reference word string as the recognition certainty by giving information indicating that the recognition result is incorrect. A word sequence matching step for generating a sequence;
The recognized word string with correct / incorrect information is compared with the reference word string, and each word in the recognized word string with correct / incorrect information that matches the reference word string is given to the reference word string that matches the word A recognition word string learning data creation step for creating recognition word string learning data having a recognition certainty factor and a label by giving a label ;
Reference word string learning for creating reference word string learning data having a recognition certainty factor and a label by giving information indicating that a recognition result is correct to each word in the reference word string as the recognition certainty factor A data creation step;
Using the recognition word string learning data and the reference word string learning data as input, using a support vector machine, a maximum entropy model, or a conditional random field , at least the recognition confidence as a feature, the input speech or character And a model creation step of learning the model information for assigning a label indicating the optimum word type to each word included in the data and storing the model information in a storage means.
音声または文字のデータであるモデル学習用のデータを、音声認識または文字認識により認識した単語の列を認識単語列とし、かつ、前記モデル学習用のデータに対応する正しい認識結果である単語列中の各単語に対して当該単語の種別を示す正しいラベルが付与された単語列を参照単語列としたときに、
入力された音声または文字のデータに含まれる各単語に対して、単語の種別を示すラベルを付与するためのモデル情報を学習するモデル学習装置が、
前記認識単語列の各単語と前記参照単語列中の各単語とを比較して、前記参照単語列と一致する前記認識単語列中の単語には認識結果が正しいことを示す情報を認識確信度として付与し、前記参照単語列と一致しない前記認識単語列中の単語には認識結果が誤りであること示す情報を認識確信度として付与することで、認識確信度を備えた正誤情報つき認識単語列を生成する単語列対応付けステップと、
前記正誤情報つき認識単語列と前記参照単語列とを比較し、前記参照単語列と一致する前記正誤情報つき認識単語列中の各単語に、当該単語と一致した前記参照単語列に付与されたラベルを付与することで、認識確信度とラベルとを備えた認識単語列学習データを作成する認識単語列学習データ作成ステップと、
前記参照単語列中の各単語に、認識結果が正しいことを示す情報を前記認識確信度として付与することで、認識確信度とラベルとを備えた参照単語列学習データを作成する参照単語列学習データ作成ステップと、
前記認識単語列学習データおよび前記参照単語列学習データを入力として、サポートベクトルマシン、最大エントロピーモデル、または条件付き確率場を用いて、少なくとも前記認識確信度を素性として、前記音声または文字の入力データに含まれる各単語に対して最適な単語の種別を示すラベルを付与するための前記モデル情報を学習し、記憶手段に格納するモデル作成ステップと、
前記音声または文字の入力データを音声認識または文字認識により単語列に認識し、認識した複数の単語列の候補をグラフ表現で表わした単語ラティスを作成する単語列認識ステップと、
前記単語ラティスに含まれる各単語について、当該単語の認識の正しさを連続値で表現したスコアを算出し、当該スコアが所定の閾値以上であれば認識が正しいことを示す情報を認識確信度として付与し、それ以外の場合は認識が誤りであることを示す情報を認識確信度として各単語に付与することで、認識確信度を備えた前記単語ラティスに対する確信度情報付き認識単語列を作成する単語確信度計算ステップと、
前記モデル作成ステップにおいて作成したモデル情報を用いて、前記単語ラティスに対する確信度情報付き認識単語列の各単語に対し、ラベルを付与するラベル付与ステップと、
前記単語ラティスに対する確信度情報付き認識単語列から、前記所定の種別に対応するラベルが付与された単語を前記抽出対象情報として抽出する情報抽出ステップと
を含むことを特徴とする情報抽出方法。 An information extraction method for extracting, as extraction target information, a word provided with a label indicating a predetermined type from speech or character input data,
The model learning data, which is speech or character data, is a recognition word string that is a word string recognized by speech recognition or character recognition, and is a correct recognition result corresponding to the model learning data. When a word string to which a correct label indicating the type of the word is assigned to each word is used as a reference word string,
A model learning device that learns model information for assigning a label indicating the type of a word to each word included in the input speech or character data,
Recognize certainty information by comparing each word in the recognized word string with each word in the reference word string and indicating that the recognition result is correct for the word in the recognized word string that matches the reference word string The recognition word with correct / incorrect information having the recognition certainty is given to the word in the recognition word string that does not match the reference word string as the recognition certainty by giving information indicating that the recognition result is incorrect. A word sequence matching step for generating a sequence;
The recognized word string with correct / incorrect information is compared with the reference word string, and each word in the recognized word string with correct / incorrect information that matches the reference word string is given to the reference word string that matches the word A recognition word string learning data creation step for creating recognition word string learning data having a recognition certainty factor and a label by giving a label;
Reference word string learning for creating reference word string learning data having a recognition certainty factor and a label by giving information indicating that a recognition result is correct to each word in the reference word string as the recognition certainty factor A data creation step;
Using the recognition word string learning data and the reference word string learning data as inputs, using a support vector machine, a maximum entropy model, or a conditional random field, at least the recognition confidence as a feature, and input data of the speech or characters A model creation step of learning the model information for assigning a label indicating an optimum word type for each word included in the storage, and storing the model information in a storage unit;
A word string recognition step of recognizing the input data of the voice or characters into a word string by voice recognition or character recognition, and creating a word lattice representing a plurality of recognized word string candidates in a graph expression ;
For each word included in the word lattice, a score expressing the correctness of recognition of the word as a continuous value is calculated, and information indicating that the recognition is correct if the score is equal to or greater than a predetermined threshold value as the recognition certainty The recognition word string with certainty information for the word lattice having the recognition certainty is created by adding to each word information indicating that the recognition is incorrect otherwise as the certainty of recognition. A word confidence calculation step;
Using the model information created in the modeling step, For each word in confidence information with recognized word sequence for the word lattice, and labeling step of applying a label,
Wherein the confidence factor information with the recognized word sequence for the word lattice, the information extraction method characterized by including the information extracting step to extract a word label corresponding to said predetermined type is assigned as the extraction target information.
音声または文字のデータであるモデル学習用のデータを、音声認識または文字認識により認識した単語の列である認識単語列を作成する単語列認識手段と、
前記モデル学習用のデータに対応する正しい認識結果である単語列中の各単語に対して当該単語の種別を示す正しいラベルが付与された単語列を参照単語列である参照単語列中の各単語と前記認識単語列の各単語とを比較して、前記参照単語列と一致する前記認識単語列中の単語には認識結果が正しいことを示す情報を認識確信度として付与し、前記参照単語列と一致しない前記認識単語列中の単語には認識結果が誤りであること示す情報を認識確信度として付与することで、認識確信度を備えた正誤情報つき認識単語列を生成する単語列対応付け手段と、
前記正誤情報つき認識単語列と前記参照単語列とを比較し、前記参照単語列と一致する前記正誤情報つき認識単語列中の各単語に、当該単語と一致した前記参照単語列に付与されたラベルを付与することで、認識確信度とラベルとを備えた認識単語列学習データを作成する認識単語列学習データ作成手段と、
前記参照単語列中の各単語に、認識結果が正しいことを示す情報を前記認識確信度として付与することで、認識確信度とラベルとを備えた参照単語列学習データを作成する参照単語列学習データ作成手段と、
前記認識単語列学習データおよび前記参照単語列学習データを入力として、サポートベクトルマシン、最大エントロピーモデル、または条件付き確率場を用いて、少なくとも前記認識確信度を素性として、前記入力された音声または文字のデータに含まれる各単語に対して最適な単語の種別を示すラベルを付与するための前記モデル情報を学習し、記憶手段に格納するモデル作成手段と
を備えることを特徴とするモデル学習装置。 A model learning device that learns model information for assigning a label indicating a word type to each word included in input speech or character data ,
Word string recognition means for creating a recognition word string that is a string of words recognized by voice recognition or character recognition from data for model learning that is voice or character data ;
Each word in the reference word string that is a reference word string is a word string in which a correct label indicating the type of the word is assigned to each word in the word string that is a correct recognition result corresponding to the data for model learning Is compared with each word in the recognized word string, and information indicating that the recognition result is correct is given to the word in the recognized word string that matches the reference word string as a recognition certainty, and the reference word string A word string association that generates a recognition word string with correct / incorrect information having a recognition certainty by giving information indicating that the recognition result is incorrect to a word in the recognized word string that does not match with the recognition certainty Means,
The recognized word string with correct / incorrect information is compared with the reference word string, and each word in the recognized word string with correct / incorrect information that matches the reference word string is given to the reference word string that matches the word A recognition word string learning data creating means for creating recognition word string learning data having a recognition certainty factor and a label by giving a label ;
Reference word string learning for creating reference word string learning data having a recognition certainty factor and a label by giving information indicating that a recognition result is correct to each word in the reference word string as the recognition certainty factor Data creation means;
Using the recognition word string learning data and the reference word string learning data as input, using a support vector machine, a maximum entropy model, or a conditional random field , at least the recognition confidence as a feature, the input speech or character A model learning apparatus comprising: a model creating unit that learns the model information for assigning a label indicating an optimum word type to each word included in the data and stores the model information in a storage unit.
モデル学習時に音声または文字のデータであるモデル学習用のデータを、音声認識または文字認識により認識した単語の列である認識単語列を作成すると共に、情報抽出時に前記音声または文字の入力データを音声認識または文字認識により単語列に認識し、認識した複数の単語列の候補をグラフ表現で表わした単語ラティスを作成する単語列認識手段と、
モデル学習時に前記モデル学習用のデータに対応する正しい認識結果である単語列中の各単語に対して当該単語の種別を示す正しいラベルが付与された単語列を参照単語列である参照単語列中の各単語と前記認識単語列の各単語とを比較して、前記参照単語列と一致する前記認識単語列中の単語には認識結果が正しいことを示す情報を認識確信度として付与し、前記参照単語列と一致しない前記認識単語列中の単語には認識結果が誤りであること示す情報を認識確信度として付与することで、認識確信度を備えた正誤情報つき認識単語列を生成する単語列対応付け手段と、
モデル学習時に前記正誤情報つき認識単語列と前記参照単語列とを比較し、前記参照単語列と一致する前記正誤情報つき認識単語列中の各単語に、当該単語と一致した前記参照単語列に付与されたラベルを付与することで、認識確信度とラベルとを備えた認識単語列学習データを作成する認識単語列学習データ作成手段と、
モデル学習時に前記参照単語列中の各単語に、認識結果が正しいことを示す情報を前記認識確信度として付与することで、認識確信度とラベルとを備えた参照単語列学習データを作成する参照単語列学習データ作成手段と、
モデル学習時に前記認識単語列学習データおよび前記参照単語列学習データを入力として、サポートベクトルマシン、最大エントロピーモデル、または条件付き確率場を用いて、少なくとも前記認識確信度を素性として、前記入力された音声または文字のデータに含まれる各単語に対して最適な単語の種別を示すラベルを付与するためのモデル情報を学習し、記憶手段に格納するモデル作成手段と、
情報抽出時に前記単語ラティスに含まれる各単語について、当該単語の認識の正しさを連続値で表現したスコアを算出し、当該スコアが所定の閾値以上であれば認識が正しいことを示す情報を認識確信度として付与し、それ以外の場合は認識が誤りであることを示す情報を認識確信度として各単語に付与することで、認識確信度を備えた前記単語ラティスに対する確信度情報付き認識単語列を作成する単語確信度計算手段と、
前記モデル作成手段で作成したモデル情報を用いて、情報抽出時に前記単語ラティスに対する確信度情報付き認識単語列の各単語に対し、ラベルを付与するラベル付与手段と、
情報抽出時に前記単語ラティスに対する確信度情報付き認識単語列から、前記所定の種別に対応するラベルが付与された単語を前記抽出対象情報として抽出する情報抽出手段と
を備えることを特徴とする情報抽出装置。 An information extraction device that extracts, as extraction target information, a word to which a label indicating a predetermined type is given from voice or character input data,
Creates a recognition word sequence that is a sequence of words recognized by speech recognition or character recognition from the data for model learning that is speech or character data during model learning, and the input data of the speech or characters during information extraction A word string recognition means for recognizing a word string by recognition or character recognition and creating a word lattice representing a plurality of recognized word string candidates in a graph expression ;
In a reference word string that is a reference word string, a word string in which a correct label indicating the type of the word is assigned to each word in the word string that is a correct recognition result corresponding to the model learning data at the time of model learning Each word of the recognition word string and each word of the recognition word string, the word in the recognition word string that matches the reference word string, the information indicating that the recognition result is correct is given as a recognition certainty, A word that generates a recognition word string with correct / incorrect information having a recognition certainty by giving information indicating that the recognition result is incorrect to a word in the recognized word string that does not match the reference word string as a recognition certainty. Column association means;
The recognition word string with correct / incorrect information is compared with the reference word string during model learning, and each reference word string in the recognition word string with correct / incorrect information that matches the reference word string is added to the reference word string that matches the word. A recognition word string learning data creating means for creating recognition word string learning data having a recognition certainty factor and a label by giving the given label;
Reference for creating reference word string learning data having a recognition certainty factor and a label by giving information indicating that a recognition result is correct to each word in the reference word string at the time of model learning as the recognition certainty factor Word string learning data creation means;
The recognition word string learning data and the reference word string learning data are input at the time of model learning, and the input is performed using at least the recognition certainty as a feature using a support vector machine, a maximum entropy model, or a conditional random field. Model creation means for learning model information for assigning a label indicating an optimum word type for each word included in speech or character data, and storing it in a storage means;
For each word included in the word lattice at the time of information extraction, a score expressing the correctness of recognition of the word as a continuous value is calculated, and information indicating that the recognition is correct is recognized if the score is equal to or greater than a predetermined threshold. Recognized word string with certainty information for the word lattice provided with the certainty of recognition by giving information indicating that the recognition is incorrect otherwise to each word as the certainty of recognition. A word certainty calculation means for creating
Using the model information created by said model creating means, For each word in confidence information with recognized word sequence for the word lattice during information extraction, and the label applying means for applying the labels,
From confidence information-recognized word sequence for the word lattice during information extraction, information, comprising an information extracting means to extract a word label corresponding to said predetermined type is assigned as the extraction target information Extraction device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006155970A JP4878220B2 (en) | 2006-06-05 | 2006-06-05 | Model learning method, information extraction method, model learning device, information extraction device, model learning program, information extraction program, and recording medium recording these programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006155970A JP4878220B2 (en) | 2006-06-05 | 2006-06-05 | Model learning method, information extraction method, model learning device, information extraction device, model learning program, information extraction program, and recording medium recording these programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007322984A JP2007322984A (en) | 2007-12-13 |
JP4878220B2 true JP4878220B2 (en) | 2012-02-15 |
Family
ID=38855815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006155970A Expired - Fee Related JP4878220B2 (en) | 2006-06-05 | 2006-06-05 | Model learning method, information extraction method, model learning device, information extraction device, model learning program, information extraction program, and recording medium recording these programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4878220B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4939560B2 (en) * | 2009-03-09 | 2012-05-30 | 日本電信電話株式会社 | Speech recognition apparatus, method and program |
JP5400727B2 (en) * | 2010-08-24 | 2014-01-29 | 日本電信電話株式会社 | Speech recognition apparatus, method and program thereof |
JP5369079B2 (en) * | 2010-12-03 | 2013-12-18 | 日本電信電話株式会社 | Acoustic model creation method and apparatus and program thereof |
US20230099518A1 (en) * | 2020-03-05 | 2023-03-30 | Nippon Telegraph And Telephone Corporation | Class-labeled span sequence identifying apparatus, class-labeled span sequence identifying method and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352993A (en) * | 1999-06-14 | 2000-12-19 | Oki Electric Ind Co Ltd | Voice recognition system and learning method of hidden markov model |
JP4779239B2 (en) * | 2001-06-13 | 2011-09-28 | 日本電気株式会社 | Acoustic model learning apparatus, acoustic model learning method, and program thereof |
JP4008344B2 (en) * | 2002-12-06 | 2007-11-14 | 日本電信電話株式会社 | Class identification model generation method, apparatus, and program, class identification method, apparatus, and program |
-
2006
- 2006-06-05 JP JP2006155970A patent/JP4878220B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007322984A (en) | 2007-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113811946B (en) | End-to-end automatic speech recognition of digital sequences | |
US8185376B2 (en) | Identifying language origin of words | |
Schuster et al. | Japanese and korean voice search | |
CN113692616B (en) | Phoneme-based contextualization for cross-language speech recognition in an end-to-end model | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7966173B2 (en) | System and method for diacritization of text | |
US10217457B2 (en) | Learning from interactions for a spoken dialog system | |
KR100825690B1 (en) | Error correction method in speech recognition system | |
US20040148154A1 (en) | System for using statistical classifiers for spoken language understanding | |
JPWO2007097176A1 (en) | Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program | |
JP2007087397A (en) | Morphological analysis program, correction program, morphological analyzer, correcting device, morphological analysis method, and correcting method | |
JP2010256498A (en) | Conversion model generating apparatus, voice recognition result conversion system, method and program | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
CN115455946A (en) | Voice recognition error correction method and device, electronic equipment and storage medium | |
JP4878220B2 (en) | Model learning method, information extraction method, model learning device, information extraction device, model learning program, information extraction program, and recording medium recording these programs | |
US20020184019A1 (en) | Method of using empirical substitution data in speech recognition | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
CN115099222A (en) | Punctuation mark misuse detection and correction method, device, equipment and storage medium | |
JP4733436B2 (en) | Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium | |
US11080488B2 (en) | Information processing apparatus, output control method, and computer-readable recording medium | |
JP6276516B2 (en) | Dictionary creation apparatus and dictionary creation program | |
JP2003162524A (en) | Language processor | |
JP4674609B2 (en) | Information processing apparatus and method, program, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080730 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110225 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111125 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |