JP7014142B2 - キーワード抽出装置、キーワード抽出方法、およびプログラム - Google Patents

キーワード抽出装置、キーワード抽出方法、およびプログラム Download PDF

Info

Publication number
JP7014142B2
JP7014142B2 JP2018224435A JP2018224435A JP7014142B2 JP 7014142 B2 JP7014142 B2 JP 7014142B2 JP 2018224435 A JP2018224435 A JP 2018224435A JP 2018224435 A JP2018224435 A JP 2018224435A JP 7014142 B2 JP7014142 B2 JP 7014142B2
Authority
JP
Japan
Prior art keywords
word
keyword extraction
word vector
keyword
confusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018224435A
Other languages
English (en)
Other versions
JP2020086332A (ja
Inventor
孝 中村
智大 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018224435A priority Critical patent/JP7014142B2/ja
Priority to PCT/JP2019/045160 priority patent/WO2020110815A1/ja
Priority to US17/298,368 priority patent/US20220005466A1/en
Publication of JP2020086332A publication Critical patent/JP2020086332A/ja
Application granted granted Critical
Publication of JP7014142B2 publication Critical patent/JP7014142B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、入力された音声信号の中から発話された重要な単語をキーワードとして抽出する技術に関する。
様々なキーワード抽出方式が学会等で提案され、実用化されている。非特許文献1には、サポートベクターマシン(SVM: Support Vector Machine)を用いてグローバルコンテキスト情報とローカルコンテキスト情報の両方に基づいてキーワードを抽出する技術が開示されている。非特許文献2には、Twitter(登録商標)から収集したテキストから再帰型ニューラルネットワーク(RNN: Recurrent Neural Network)を用いて自動的にキーワードを抽出する技術が開示されている。
Kuo Zhang, Hui Xu, Jie Tang, Juanzi Li, "Keyword Extraction Using Support Vector Machine," Advances in Web-Age Information Management, WAIM 2006, pp. 85-96, 2016. Qi Zhang, Yang Wang, Yeyun Gong, Xuanjing Huang, "Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter," Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pp. 836-845, 2016.
従来のキーワード抽出技術では、誤りを含むテキストに対する対策がなされていない。そのため、例えば、背景雑音や過度な残響、発話者の言い淀みや言い直しなどにより発生する誤りを含む音声認識結果を対象としてキーワード抽出を行うと、妥当なキーワードが抽出されないおそれがある。
この発明の目的は、誤りを含む音声認識結果であっても頑健にキーワードを抽出することができるキーワード抽出技術を提供することである。
上記の課題を解決するために、この発明の一態様のキーワード抽出装置は、複数の単語の単語ベクトル表現を入力とし、キーワードとして抽出すべき単語の単語ベクトル表現を抽出して出力するキーワード抽出モデルを記憶するモデル記憶部と、入力された音声信号を音声認識し、その音声認識結果であるコンフュージョンネットワークを出力する音声認識部と、コンフュージョンネットワークに含まれるコンフュージョンセットごとに、そのコンフュージョンセットに含まれる各候補単語について少なくとも音声認識の信頼度を含む単語ベクトル表現を生成する単語ベクトル表現生成部と、各コンフュージョンセットに含まれる候補単語の単語ベクトル表現を信頼度が高い順にキーワード抽出モデルへ入力し、キーワードとして抽出すべき単語の単語ベクトル表現を得るキーワード抽出部と、を含む。
この発明によれば、誤りを含む音声認識結果であっても頑健にキーワードを抽出することができる。
図1は、キーワード抽出装置の機能構成を例示する図である。 図2は、キーワード抽出方法の処理手順を例示する図である。 図3は、コンフュージョンネットワークの構造を説明するための図である。 図4は、キーワード抽出部の処理を説明するための図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下で説明する実施形態は、事前に学習されたキーワード抽出モデルを用いて、入力された音声信号の音声認識結果からキーワードとして抽出されるべき単語の単語ベクトル表現を抽出して出力するキーワード抽出装置および方法である。実施形態のキーワード抽出装置1は、図1に例示するように、モデル記憶部10、発話検出部11、音声認識部12、単語ベクトル表現生成部13、およびキーワード抽出部14を備える。このキーワード抽出装置1が、図2に例示する各ステップの処理を行うことにより実施形態のキーワード抽出方法が実現される。
キーワード抽出装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。キーワード抽出装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。キーワード抽出装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。キーワード抽出装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。キーワード抽出装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
モデル記憶部10には、予め学習したキーワード抽出モデルが記憶されている。このキーワード抽出モデルは、複数の単語の単語ベクトル表現を入力とし、キーワードとして抽出すべき単語の有無を推定する。キーワード抽出モデルは、入力された複数の単語の単語ベクトル表現の中にキーワードとして抽出すべき単語が存在するときは、そのキーワードの単語ベクトル表現を出力する。また、入力された複数の単語の単語ベクトル表現の中にキーワードとして抽出すべき単語が存在しないときは、その旨を表す情報として何も出力しない状態(=null)に相当するベクトルを出力する。なお、入力された複数の単語の単語ベクトル表現の中にキーワードとして抽出すべき単語が複数存在するときは、複数のキーワードの単語ベクトル表現からなる単語ベクトル表現集合を出力する。
キーワード抽出モデルは、例えば、長短期記憶(LSTM: Long Short Term Memory)などの長距離文脈を捉えられる(扱える)時系列統計モデルなどを用いて構成された深層ニューラルネットワーク(DNN: Deep Neural Network)である。キーワード抽出モデルの学習は、大量の音声データと、各音声データと対になるキーワードの正解値とが対応付けられた学習データに基づいて、一般的な深層ニューラルネットワークの学習手順に従って予め行っておく。
ステップS1において、発話検出部11は、キーワード抽出装置1に入力された音声信号を受け取る。発話検出部11は、受け取った音声信号から発話部分の検出を行う。発話検出部11は、検出された発話部分に関する情報を音声認識部12へ入力する。発話部分に関する情報とは、具体的には、検出された発話部分の音声波形、発話開始時刻、発話終了時刻、音声パワー、SN比などである。
発話部分の検出は、既知の発話検出技術を用いればよい。具体的には、例えば、下記参考文献1や参考文献2などに記載された発話検出技術を用いることができる。
〔参考文献1〕特許第5740362号公報
〔参考文献2〕Masakiyo Fujimoto and Tomohiro Nakatani, "Feature enhancement based on generative-discriminative hybrid approach with GMMs and DNNs for noise robust speech recognition, " in Proceedings of ICASSP '15, pp. 5019-5023, Apr. 2015.
ステップS2において、音声認識部12は、発話検出部11から発話部分に関する情報を受け取る。音声認識部12は、入力された音声信号の発話部分の音声波形に対して音声認識を行い、その音声認識結果を表すコンフュージョンネットワークを求める。音声認識部12は、音声認識結果を表すコンフュージョンネットワークをベクトル表現生成部13へ入力する。
コンフュージョンネットワークは、N-bestリストまたは単語ラティスのコンパクトな表現であり、単語ラティスを音響的なクラスタリングにより圧縮したものである。N-bestリストとは、音声認識結果の上位N文のリストである。単語ラティスとは、音声認識結果の候補単語の取り得る組み合わせグラフである。コンフュージョンネットワークは、図3に示すように、複数のコンフュージョンセット(点線で囲まれた部分)が連続する構造を取る。各コンフュージョンセットは音声認識結果の候補単語をクラスタリングしたときの1つのクラスタリング結果を表す。各コンフュージョンセットには、音声認識の信頼度が付与された複数の候補単語が含まれる。このコンフュージョンネットワークを探索した結果、各コンフュージョンセット内の候補単語の中で文全体を見たときに最も妥当と思われる単語が音声認識結果として選ばれる。コンフュージョンネットワークの作成方法は、例えば、下記参考文献3に記載されている。
〔参考文献3〕L. Mangu, E. Brill, A. Stolcke, "Finding consensus in speech recognition: word error minimization and other applications of confusion networks," Computer Speech and Language, vol. 14(4), pp. 373-400, October 2000.
ステップS3において、単語ベクトル表現生成部13は、音声認識部12から音声認識結果を表すコンフュージョンネットワークを受け取る。単語ベクトル表現生成部13は、コンフュージョンネットワークに含まれるコンフュージョンセットごとに、そのコンフュージョンセットに含まれるすべての候補単語について単語ベクトル表現を生成する。単語ベクトル表現生成部13は、生成した候補単語の単語ベクトル表現をキーワード抽出部14へ入力する。
ある候補単語に関する単語ベクトル表現は、その候補単語を表す単語ベクトル、その候補単語の品詞を表す品詞ベクトル、その候補単語に付与された音声認識の信頼度、その候補単語が含まれるコンフュージョンセットを一意に特定するコンフュージョンセット番号、その候補単語が含まれるコンフュージョンセット中の候補単語を信頼度が高い順に整列したときの末尾の単語を示すコンフュージョンセット終了フラグから構成される。
単語ベクトルは、例えば、下記参考文献4に記載されたword2vec(skip-gram)などの単語ベクトル表現生成技術を用いて生成する。品詞ベクトルは、例えば、1-of-K表現などで生成する。
〔参考文献4〕T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, "Distributed Representations of Words and Phrases and their Compositionality," Advances in Neural Information Processing Systems 26 (NIPS 2013), pp. 3111-3119, 2013.
コンフュージョンセット番号は、コンフュージョンネットワーク単位で正規化されるものとする。例えば、コンフュージョンネットワークに含まれる複数のコンフュージョンセットに対して、0から開始し1ずつ増加する通し番号を先頭から付与し、その通し番号に対してコンフュージョンネットワークに含まれるコンフュージョンセット数で除算することで正規化を行う。
コンフュージョンセット終了フラグは、コンフュージョンセットに含まれる候補単語を信頼度の降順(高い順)でソートし、末尾の単語(すなわち、最も信頼度が低い候補単語)は1、そうでない単語は0を設定する。コンフュージョンセット終了フラグは、キーワード抽出モデルを学習する際に、終了フラグが0の単語は何も出力せず、終了フラグが1の単語はキーワードの単語ベクトル表現を出力するように学習させることを目的として付与するものである。
単語ベクトル表現生成部13は、コンフュージョンネットワークに含まれるコンフュージョンセットごとに、下記のようにして単語ベクトル表現を生成する。まず、コンフュージョンセットに含まれる候補単語について信頼度で降順にソートする。次に、ソート結果の末尾以外はコンフュージョンセット終了フラグを0に、末尾は1にセットする。続いて、各候補単語について単語ベクトルと品詞ベクトルを生成する。最後に、ソート結果順に、単語ベクトル・品詞ベクトル・信頼度・コンフュージョンセット番号・コンフュージョンセット終了フラグを連結し、出力する。
ステップS4において、キーワード抽出部14は、単語ベクトル表現生成部13から候補単語の単語ベクトル表現を受け取る。キーワード抽出部14は、モデル記憶部10に記憶されたキーワード抽出モデルへ受け取った単語ベクトル表現を信頼度の降順に入力する。キーワード抽出モデルは、コンフュージョンセットに含まれるすべての候補単語が入力された後に、キーワードとして抽出されるべき単語の単語ベクトル表現(または単語ベクトル表現集合)を出力する。キーワード抽出部14は、キーワード抽出モデルが出力する単語ベクトル表現(または単語ベクトル表現集合)をキーワードの単語ベクトル表現としてキーワード抽出装置1の出力とする。
図4を参照してキーワード抽出部14の処理を詳細に説明する。ここでは、処理対象のコンフュージョンセットに3個の候補単語が存在するものとする(図3に示したコンフュージョンネットワークの左から3番目のコンフュージョンセット参照)。まず、コンフュージョンセット中の最も信頼度が高い候補単語(図3の例であれば、“価値”)から生成した単語ベクトル表現がキーワード抽出モデルへ入力される。このとき、コンフュージョンセット終了フラグは0であるため、キーワード抽出モデルは何も出力しない。次に、コンフュージョンセット中の2番目に信頼度が高い候補単語(図3の例であれば、“達”)から生成した単語ベクトル表現がキーワード抽出モデルへ入力される。このとき、コンフュージョンセット終了フラグは0であるため、キーワード抽出モデルは何も出力しない。最後に、コンフュージョンセット中の最も信頼度が低い候補単語(図3の例であれば、“が”)から生成した単語ベクトル表現がキーワード抽出モデルへ入力される。このとき、コンフュージョンセット終了フラグは1であるため、キーワード抽出モデルはキーワードとして抽出するべき候補単語の単語ベクトル表現を出力する。なお、図4に示すように、2番目以降の候補単語の単語ベクトル表現が入力されたときは、LSTMにより構成された層では直前の候補単語の単語ベクトル表現を入力したときの出力を用いて演算を行う。
上述の実施形態で示したように、この発明のキーワード抽出技術では、音声認識結果中のキーワードを抽出する際に音声認識結果の信頼度が付与された候補単語の集合を入力に用いる。これにより、キーワードの抽出において音声認識の信頼度を考慮することができ、誤りが存在する音声認識結果に対しても頑健なキーワード抽出が可能となる。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 キーワード抽出装置
10 モデル記憶部
11 発話検出部
12 音声認識部
13 単語ベクトル表現生成部
14 キーワード抽出部

Claims (6)

  1. 複数の単語の単語ベクトル表現を入力とし、キーワードとして抽出すべき単語の単語ベクトル表現を抽出して出力するキーワード抽出モデルを記憶するモデル記憶部と、
    入力された音声信号を音声認識し、その音声認識結果であるコンフュージョンネットワークを出力する音声認識部と、
    上記コンフュージョンネットワークに含まれるコンフュージョンセットごとに、そのコンフュージョンセットに含まれる各候補単語について少なくとも音声認識の信頼度を含む単語ベクトル表現を生成する単語ベクトル表現生成部と、
    各コンフュージョンセットに含まれる候補単語の単語ベクトル表現を上記信頼度が高い順に上記キーワード抽出モデルへ入力し、キーワードとして抽出すべき単語の単語ベクトル表現を得るキーワード抽出部と、
    を含むキーワード抽出装置。
  2. 請求項1に記載のキーワード抽出装置であって、
    上記キーワード抽出モデルは、入力された複数の単語の単語ベクトル表現の中にキーワードとして抽出すべき単語が存在しないときは、何も出力しない状態に相当するベクトルを出力するものである、
    キーワード抽出装置。
  3. 請求項1または2に記載のキーワード抽出装置であって、
    上記単語ベクトル表現は、その単語を表す単語ベクトルと、その単語の品詞を表す品詞ベクトルと、その単語に付与された音声認識の信頼度と、その単語が含まれるコンフュージョンセットを一意に特定する番号と、その単語が含まれるコンフュージョンセット中の単語を信頼度が高い順に整列したときの末尾の単語を示す終了フラグから構成されるものである、
    キーワード抽出装置。
  4. 請求項1から3のいずれかに記載のキーワード抽出装置であって、
    上記キーワード抽出モデルは、長距離文脈を扱う再帰型ニューラルネットワークを用いて構成されるものである、
    キーワード抽出装置。
  5. モデル記憶部に、複数の単語の単語ベクトル表現を入力とし、キーワードとして抽出すべき単語の単語ベクトル表現を抽出して出力するキーワード抽出モデルが記憶されており、
    音声認識部が、入力された音声信号を音声認識し、その音声認識結果であるコンフュージョンネットワークを出力し、
    単語ベクトル表現生成部が、上記コンフュージョンネットワークに含まれるコンフュージョンセットごとに、そのコンフュージョンセットに含まれる各候補単語について少なくとも音声認識の信頼度を含む単語ベクトル表現を生成し、
    キーワード抽出部が、各コンフュージョンセットに含まれる候補単語の単語ベクトル表現を上記信頼度が高い順に上記キーワード抽出モデルへ入力し、キーワードとして抽出すべき単語の単語ベクトル表現を得る、
    キーワード抽出方法。
  6. 請求項1から4のいずれかに記載のキーワード抽出装置としてコンピュータを機能させるためのプログラム。
JP2018224435A 2018-11-30 2018-11-30 キーワード抽出装置、キーワード抽出方法、およびプログラム Active JP7014142B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018224435A JP7014142B2 (ja) 2018-11-30 2018-11-30 キーワード抽出装置、キーワード抽出方法、およびプログラム
PCT/JP2019/045160 WO2020110815A1 (ja) 2018-11-30 2019-11-19 キーワード抽出装置、キーワード抽出方法、およびプログラム
US17/298,368 US20220005466A1 (en) 2018-11-30 2019-11-19 Keyword detection apparatus, keyword detection method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018224435A JP7014142B2 (ja) 2018-11-30 2018-11-30 キーワード抽出装置、キーワード抽出方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020086332A JP2020086332A (ja) 2020-06-04
JP7014142B2 true JP7014142B2 (ja) 2022-02-01

Family

ID=70852941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018224435A Active JP7014142B2 (ja) 2018-11-30 2018-11-30 キーワード抽出装置、キーワード抽出方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220005466A1 (ja)
JP (1) JP7014142B2 (ja)
WO (1) WO2020110815A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6774120B1 (ja) * 2019-05-14 2020-10-21 株式会社インタラクティブソリューションズ 自動報告書作成システム
US11341954B2 (en) * 2019-12-17 2022-05-24 Google Llc Training keyword spotters
WO2023113404A1 (ko) * 2021-12-13 2023-06-22 삼성전자 주식회사 사용자 데이터를 이용한 음성 인식 서비스를 제공하는 전자 장치 및 이의 동작 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348552A (ja) 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 音声文書検索装置および方法およびプログラム
JP2010522923A (ja) 2007-04-13 2010-07-08 マサチューセッツ インスティテュート オブ テクノロジー 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087745B2 (en) * 2016-12-20 2021-08-10 Nippon Telegraph And Telephone Corporation Speech recognition results re-ranking device, speech recognition results re-ranking method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348552A (ja) 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 音声文書検索装置および方法およびプログラム
JP2010522923A (ja) 2007-04-13 2010-07-08 マサチューセッツ インスティテュート オブ テクノロジー 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
中村 卓磨ほか,音素遷移ネットワークを用いたリアルタイムキーワードスポッティングの検討,日本音響学会2016年秋季研究発表会講演論文集,日本,2016年09月16日,p.65-68,ISSN 1880-7658
倉田 岳人ほか,単語コンフュージョンネットワークを利用した日本語電話音声からの固有表現抽出,日本音響学会2011年春季研究発表会講演論文集,日本,2011年03月11日,p.109-112,ISSN 1880-7658
大塚 淳史ほか,文構造を考慮した発話理解に基づく自然文検索,人工知能学会第30回全国大会論文集,日本,2016年06月09日,p.1-4,ISSN 0914-4293
池下 裕紀, 篠崎 隆宏,連続音声認識におけるLSTMによる単語履歴を考慮した未知語検出法,日本音響学会2016年秋季研究発表会講演論文集,日本,2016年09月16日,p.93-94,ISSN 1880-7658

Also Published As

Publication number Publication date
JP2020086332A (ja) 2020-06-04
US20220005466A1 (en) 2022-01-06
WO2020110815A1 (ja) 2020-06-04

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN108288468B (zh) 语音识别方法及装置
US11531818B2 (en) Device and method for machine reading comprehension question and answer
WO2019200923A1 (zh) 基于拼音的语义识别方法、装置以及人机对话系统
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
JP7014142B2 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
JP6615736B2 (ja) 音声言語識別装置、その方法、及びプログラム
US10403271B2 (en) System and method for automatic language model selection
WO2022142115A1 (zh) 基于对抗学习的说话人语音转换方法及相关设备
KR20220022726A (ko) 임베딩 벡터 생성 모델 트레이닝 방법 및 장치
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
US11132994B1 (en) Multi-domain dialog state tracking
CN112825249A (zh) 语音处理方法和设备
CN104199825A (zh) 一种信息查询方法和系统
Kaushik et al. Automatic audio sentiment extraction using keyword spotting.
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
CN113343692B (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
Sachidananda et al. Calm: Contrastive aligned audio-language multirate and multimodal representations
Pappu et al. Predicting tasks in goal-oriented spoken dialog systems using semantic knowledge bases
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
JP2008293098A (ja) 応答スコア情報生成装置、対話処理装置
US11551666B1 (en) Natural language processing
CN112395414A (zh) 文本分类方法和分类模型的训练方法、装置、介质和设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220103