JP2020119271A - 系列ラベリング装置、系列ラベリング方法、およびプログラム - Google Patents

系列ラベリング装置、系列ラベリング方法、およびプログラム Download PDF

Info

Publication number
JP2020119271A
JP2020119271A JP2019009891A JP2019009891A JP2020119271A JP 2020119271 A JP2020119271 A JP 2020119271A JP 2019009891 A JP2019009891 A JP 2019009891A JP 2019009891 A JP2019009891 A JP 2019009891A JP 2020119271 A JP2020119271 A JP 2020119271A
Authority
JP
Japan
Prior art keywords
symbol
fixed
voice
distributed
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019009891A
Other languages
English (en)
Other versions
JP7211103B2 (ja
Inventor
智大 田中
Tomohiro Tanaka
智大 田中
亮 増村
Akira Masumura
亮 増村
隆伸 大庭
Takanobu Oba
隆伸 大庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019009891A priority Critical patent/JP7211103B2/ja
Priority to US17/425,246 priority patent/US20220093079A1/en
Priority to PCT/JP2020/000696 priority patent/WO2020153159A1/ja
Publication of JP2020119271A publication Critical patent/JP2020119271A/ja
Application granted granted Critical
Publication of JP7211103B2 publication Critical patent/JP7211103B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声を単語や文字の単位に分割することなく、その音声に対応するテキストに対してラベル付けする。【解決手段】音声分散表現系列変換部11は、音響特徴量系列を音声分散表現に変換する。シンボル分散表現変換部12は、音響特徴量系列に対応するシンボル系列に含まれる各シンボルをシンボル分散表現に変換する。ラベル推定部13は、音声分散表現とシンボル分散表現と前後のシンボルの固定長ベクトルとを用いて生成した当該シンボルの固定長ベクトルから当該シンボルに対応するラベルを推定する。【選択図】図1

Description

この発明は、テキストに対する系列ラベリング技術に関する。
テキストに対して系列ラベリングを行う技術として、双方向再帰型ニューラルネットワーク(RNN: Recurrent Neural Network)が広く利用されている(例えば、非特許文献1参照)。双方向RNNはテキスト全体の文脈を考慮することができるニューラルネットワークである。双方向RNNを用いた系列ラベリングでは、入力されたシンボル(文字や単語)をそれぞれ固定長連続値ベクトルに変換し、前後の文脈を考慮しながらそれぞれのシンボルに対してラベル付けを行う。ここではK種類のラベル{l1, l2, …, lk, …, lK}を付与する場合について説明する。入力されるシンボル系列を{c1, c2, …, cs, …, cS}と表す場合、系列内のシンボルcsに対するラベルの確率は以下のように推定される。
Figure 2020119271
ここで、Esはシンボルcsの分散表現である。NN(・)はニューラルネットワーク(NN: Neural Network)の機能を持つ関数である。h sおよびh sはシンボルの分散表現をNNにより変換した固定長連続値ベクトルである。hsは2つのベクトルh sおよびh sを統合した固定長連続値ベクトルである。以下、h sは前向き固定長ベクトル、h sは後向き固定長ベクトルとも呼ぶ。Osはすべてのラベルに対応した確率を表す出力である。
EMBEDDING(・)はシンボルを固定長ベクトルに変換する機能を持つ関数であり、例えば線形変換の関数を利用することができる。CONCAT(・)は複数のベクトルを統合する関数であり、1つのベクトルに変換できる微分可能な関数を利用することができる。DISTRIBUTE(・)は固定長化されたベクトルからすべてのラベルの生起確率を計算する関数であり、例えばsoftmax関数を用いることができる。softmax関数は公知の技術であるため、ここでは説明を省略する。上記で計算されたOsではすべてのラベルに対する確率が計算され、ラベルlkに対応する値を、ラベルlkがシンボルcsに対するラベルとして付与される確率とする。
音響情報と言語情報を組み合わせて利用する方法として、音響信号を単語や文字等の単位に分割して利用するものがある(例えば、非特許文献2参照)。このような方法では、あらかじめ音響信号とテキストの対応付けを獲得し、ラベリング等の後段の処理を行う。単純な方法としては、事前に構築した音声認識システムを用いて一度音声認識をすることで、音響信号の分割を行うことができる。
Jason P. C. Chiu and Eric Nichols, "Named entity recognition with bidirectional LSTM-CNNs," Transactions of the Association for Computational Linguistics (TACL), vol. 4, pp. 357-370, 2016. Yu-Wun Wang, Hen-Hsen Huang, Kuan-Yu Chen, and Hsin-Hsi Chen, "Discourse marker detection for hesitation events on mandarin conversation," In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 1721-1725, 2018.
音響信号を単語や文字の単位に分割するためには、音声認識等のシステムを事前に構築する必要がある。しかしながら、この方法では音声とテキストとを対応付けるモデルとラベル付けを行うモデルとを別々に最適化する必要があるため、非常に正確な対応付けが必要になる。また、別々にモデルを構築するコストや別々にチューニングを行うコストがかかることが課題である。
この発明の目的は、上記のような技術的課題に鑑みて、音声を単語や文字の単位に分割することなく、その音声に対応するテキストに対してラベル付けすることを可能とする系列ラベリング技術を実現することである。
上記の課題を解決するために、この発明の一態様の系列ラベリング装置は、音響特徴量系列を音声分散表現に変換する音声分散表現系列変換部と、音響特徴量系列に対応するシンボル系列に含まれる各シンボルをシンボル分散表現に変換するシンボル分散表現変換部と、音声分散表現とシンボル分散表現と前後のシンボルの固定長ベクトルとを用いて生成した当該シンボルの固定長ベクトルから当該シンボルに対応するラベルを推定するラベル推定部と、を含む。
この発明の系列ラベリング技術によれば、音声を単語や文字の単位に分割することなく、その音声に対応するテキストに対してラベル付けすることが可能となる。
図1は、系列ラベリング装置の機能構成を例示する図である。 図2は、系列ラベリング方法の処理手順を例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
文中で使用する記号「」「」「^」は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「a」は数式中では次式で表される。
Figure 2020119271
本発明では、下記参考文献1に記載された注意機構を用いることで、上述した課題を解決する。注意機構はニューラルネットワークに関する技術の一つであり、ある系列から異なる長さの別の系列を予測するモデルに利用される。それと同時に2つの系列の対応関係を学習できることが知られている。この注意機構を利用することで、音声と言語間の関係を考慮しながらテキストに対してラベル付けを行うことが可能となる。
〔参考文献1〕Minh-Thang Luong, Hieu Pham, Christopher D. Manning, “Effective Approaches to Attention-based Neural Machine Translation”, In Proc. EMNLP, pp. 1412-1421, 2015.
[第一実施形態]
本発明が対象とする問題は、音声信号とそれに対応するテキストが与えられた場合に、そのテキスト内の各シンボル(単語や文字)に対してラベルを付与するものである。
本発明の第一実施形態は、音響特徴量系列とその音響特徴量系列に対応するシンボル系列とを入力とし、シンボル系列内の各シンボルにラベルを付与したラベル系列を出力する系列ラベリング装置および方法である。第一実施形態の系列ラベリング装置1は、図1に示すように、音声分散表現系列変換部11、シンボル分散表現変換部12、およびラベル推定部13を備える。この系列ラベリング装置1が、図2に例示する各ステップの処理を行うことにより第一実施形態の系列ラベリング方法が実現される。
系列ラベリング装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。系列ラベリング装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。系列ラベリング装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。系列ラベリング装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
ステップS11において、音声分散表現系列変換部11は、系列ラベリング装置1の入力である音響特徴量系列を入力とし、その音響特徴量系列を1つの音声分散表現に変換して出力する。音声分散表現系列変換部11が出力する音声分散表現はラベル推定部13へ入力される。
音響特徴量系列を{x1, x2, …, xT}、対応するシンボル系列内のシンボルをcsと表す場合、シンボルcsに対応する音声分散表現は以下のように計算する。
Figure 2020119271
ここで、NN(・)は可変長の連続値ベクトル系列を固定長の連続値ベクトルに変換する機能を持つ関数であり、その機能を持つ関数であれば任意のものを利用でき、例えばRNNを用いることができる。C sおよびC sはNNによって変換した固定長の連続値ベクトルであり、音響特徴量系列{x1, x2, …, xT}の入力順序により異なるベクトルが計算される。以下、C sは前向き音声分散表現、C sは後向き音声分散表現とも呼ぶ。h s-1およびh s+1は後述するラベル推定部13で計算される固定長連続値ベクトルである。
ステップS12において、シンボル分散表現変換部12は、系列ラベリング装置1の入力であるシンボル系列に含まれる各シンボルを入力とし、そのシンボルを固定長の分散表現に変換して出力する。シンボル分散表現変換部12が出力するシンボル分散表現はラベル推定部13へ入力される。
テキスト内のシンボル系列を{c1, c2, …, cs, …, cS}と表す場合、シンボルcsのシンボル分散表現は以下のように計算する。
Figure 2020119271
ステップS13において、ラベル推定部13は、音声分散表現系列変換部11が出力する音声分散表現Csとシンボル分散表現変換部12が出力するシンボル分散表現Esとを入力とし、そのシンボルに対して付与されるラベルを推定する。
まず、固定長連続値ベクトルh sおよびh sを以下のように計算する。
Figure 2020119271
次に、計算された2つのベクトルh sおよびh sを以下のように結合し、1つのベクトルhsとする。
Figure 2020119271
最後に、結合したベクトルhsを用いて各ラベルが付与される確率Osを計算する。
Figure 2020119271
ラベル推定部13は、計算したラベルの確率Osに基づいて、シンボルcsに付与されるラベルl^sを推定する。
系列ラベリング装置1は、ステップS11〜S13の手順を、入力されたシンボル系列内のすべてのシンボル{c1, c2, …, cs, …, cS}に対して適用することで、各シンボルに対してラベル付けしたラベル系列{l^1, l^2, …, l^s, …, l^S}を生成し、出力する。
[第二実施形態]
第二実施形態では、第一実施形態と異なるラベル推定方法を説明する。第二実施形態の方法の方が第一実施形態の方法と較べて計算量を削減することができる。以下、第一実施形態との相違点を中心に説明する。
第二実施形態の音声分散表現系列変換部11は、音響特徴量系列に対する音声分散表現を以下のように計算する。なお、hs-1はラベル推定部13で計算される固定長連続値ベクトルである。
Figure 2020119271
第二実施形態のラベル推定部13は、シンボルcsに対するラベルの確率Osを以下のように計算する。
Figure 2020119271
ここで、gsは第一実施形態のhsに相当する固定長連続値ベクトルである。
その他の手順については第一実施形態と同様に行う。
[第三実施形態]
第一実施形態あるいは第二実施形態で示した系列ラベリング技術は以下の設定において利用可能である。
(1)音声と書き起こしテキストに対する利用
音声認識システムを構築するためには、音声とその書き起こしテキストの組が大量に必要である。それらの組は大量に蓄積されているが、様々なメタ情報に関するラベルは付与するコストが大きいため、すべてのデータに人手で付与することは現実的でない。一方で、蓄積されているデータにメタ情報が付与されていれば、より高度な音声認識システムや、音声対話システムの構築を行うことが可能となる。第一実施形態あるいは第二実施形態に従い、音声と書き起こしテキストの組から書き起こしテキストにラベル付けを行うことで、メタ情報のラベル付きのデータを大量に作成することが可能となる。
(2)音声認識の後段処理としての利用
第一実施形態あるいは第二実施形態の入力として、音声と音声認識結果(テキスト)を用いることで音声認識の後処理として利用することが可能である。音声認識結果には意味の理解や後段処理には不要な箇所が含まれたり、単なるテキストに変換されたりしてしまうため、メタ情報が抜け落ちてしまう。第一実施形態あるいは第二実施形態に従い、音声認識結果にラベル付けを行うことで、音声認識結果の不要箇所の特定や削除、音声認識では抜け落ちてしまう情報を付与することが可能になる。すなわち、音声認識結果の整形や、音声認識の後段のアプリケーションの高度化を目的とした利用が可能である。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 系列ラベリング装置
11 音声分散表現系列変換部
12 シンボル分散表現変換部
13 ラベル推定部

Claims (5)

  1. 音響特徴量系列を音声分散表現に変換する音声分散表現系列変換部と、
    上記音響特徴量系列に対応するシンボル系列に含まれる各シンボルをシンボル分散表現に変換するシンボル分散表現変換部と、
    上記音声分散表現と上記シンボル分散表現と前後のシンボルの固定長ベクトルとを用いて生成した当該シンボルの固定長ベクトルから当該シンボルに対応するラベルを推定するラベル推定部と、
    を含む系列ラベリング装置。
  2. 請求項1に記載の系列ラベリング装置であって、
    上記音声分散表現系列変換部は、上記音響特徴量系列と前のシンボルの前向き固定長ベクトルとを用いて生成する前向き音声分散表現と、上記音響特徴量系列と後のシンボルの後向き固定長ベクトルとを用いて生成する後向き音声分散表現とを生成するものであり、
    上記ラベル推定部は、上記前向き音声分散表現と上記シンボル分散表現と前のシンボルの前向き固定長ベクトルとを用いて生成する当該シンボルの前向き固定長ベクトルと、上記後向き音声分散表現と上記シンボル分散表現と後のシンボルの後向き固定長ベクトルとを用いて生成する当該シンボルの後向き固定長ベクトルとを結合して当該シンボルの固定長ベクトルを生成するものである、
    系列ラベリング装置。
  3. 請求項1に記載の系列ラベリング装置であって、
    上記音声分散表現系列変換部は、上記音響特徴量系列と前のシンボルの固定長ベクトルとを用いて上記音声分散表現を生成するものであり、
    上記ラベル推定部は、上記シンボル分散表現と前のシンボルの前向き固定長ベクトルとを用いて生成する当該シンボルの前向き固定長ベクトルと、上記シンボル分散表現と後のシンボルの後向き固定長ベクトルとを用いて生成する当該シンボルの後向き固定長ベクトルとを結合して当該シンボルの固定長ベクトルを生成した上で、上記音声分散表現と当該シンボルの固定長ベクトルとを用いて生成した固定長ベクトルから当該シンボルに対応するラベルを推定するものである、
    系列ラベリング装置。
  4. 音声分散表現系列変換部が、音響特徴量系列を音声分散表現に変換し、
    シンボル分散表現変換部が、上記音響特徴量系列に対応するシンボル系列に含まれる各シンボルをシンボル分散表現に変換し、
    ラベル推定部が、上記音声分散表現と上記シンボル分散表現と前後のシンボルの固定長ベクトルとを用いて生成した当該シンボルの固定長ベクトルから当該シンボルに対応するラベルを推定する、
    系列ラベリング方法。
  5. 請求項1から3のいずれかに記載の系列ラベリング装置としてコンピュータを機能させるためのプログラム。
JP2019009891A 2019-01-24 2019-01-24 系列ラベリング装置、系列ラベリング方法、およびプログラム Active JP7211103B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019009891A JP7211103B2 (ja) 2019-01-24 2019-01-24 系列ラベリング装置、系列ラベリング方法、およびプログラム
US17/425,246 US20220093079A1 (en) 2019-01-24 2020-01-10 Sequence labeling apparatus, sequence labeling method, and program
PCT/JP2020/000696 WO2020153159A1 (ja) 2019-01-24 2020-01-10 系列ラベリング装置、系列ラベリング方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019009891A JP7211103B2 (ja) 2019-01-24 2019-01-24 系列ラベリング装置、系列ラベリング方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020119271A true JP2020119271A (ja) 2020-08-06
JP7211103B2 JP7211103B2 (ja) 2023-01-24

Family

ID=71736031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019009891A Active JP7211103B2 (ja) 2019-01-24 2019-01-24 系列ラベリング装置、系列ラベリング方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220093079A1 (ja)
JP (1) JP7211103B2 (ja)
WO (1) WO2020153159A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417875B (zh) * 2020-11-17 2023-08-15 深圳平安智汇企业信息管理有限公司 配置信息的更新方法、装置、计算机设备及介质
CN112420016B (zh) * 2020-11-20 2022-06-03 四川长虹电器股份有限公司 一种合成语音与文本对齐的方法、装置及计算机储存介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004163541A (ja) * 2002-11-11 2004-06-10 Mitsubishi Electric Corp 音声応答装置
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
JP2015230384A (ja) * 2014-06-05 2015-12-21 クラリオン株式会社 意図推定装置、及び、モデルの学習方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10867597B2 (en) * 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004163541A (ja) * 2002-11-11 2004-06-10 Mitsubishi Electric Corp 音声応答装置
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
JP2015230384A (ja) * 2014-06-05 2015-12-21 クラリオン株式会社 意図推定装置、及び、モデルの学習方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阿部 悠,外2名: "「韻律情報を用いた話し言葉音声認識におけるフィラー検出の改良」", 情報処理学会研究報告, vol. 2006, no. 12, JPN6022029019, 4 February 2006 (2006-02-04), JP, pages 43 - 48, ISSN: 0004823123 *

Also Published As

Publication number Publication date
US20220093079A1 (en) 2022-03-24
WO2020153159A1 (ja) 2020-07-30
JP7211103B2 (ja) 2023-01-24

Similar Documents

Publication Publication Date Title
US10592607B2 (en) Iterative alternating neural attention for machine reading
US10748528B2 (en) Language model generating device, language model generating method, and recording medium
CN104573099B (zh) 题目的搜索方法及装置
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
CN110019742B (zh) 用于处理信息的方法和装置
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
JP2021140188A (ja) 音声特徴補償装置、方法およびプログラム
WO2020052069A1 (zh) 用于分词的方法和装置
JP2021501903A (ja) 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム
JP2021033995A (ja) テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体
JP2018190136A (ja) 興味判定装置、興味判定方法、及びプログラム
WO2020153159A1 (ja) 系列ラベリング装置、系列ラベリング方法、およびプログラム
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN110675863A (zh) 语音语料生成方法及装置、语音识别方法及装置
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN113947091A (zh) 用于语言翻译的方法、设备、装置和介质
CN113362804A (zh) 一种合成语音的方法、装置、终端及存储介质
CN113160820A (zh) 语音识别的方法、语音识别模型的训练方法、装置及设备
CN111046674B (zh) 语义理解方法、装置、电子设备和存储介质
Tan et al. Four-in-One: a joint approach to inverse text normalization, punctuation, capitalization, and disfluency for automatic speech recognition
CN114023309A (zh) 语音识别系统、相关方法、装置及设备
WO2020162240A1 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
CN115240696A (zh) 一种语音识别方法及可读存储介质
CN112686059B (zh) 文本翻译方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221226

R150 Certificate of patent or registration of utility model

Ref document number: 7211103

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150