JP6910987B2 - 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム - Google Patents

認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム Download PDF

Info

Publication number
JP6910987B2
JP6910987B2 JP2018109442A JP2018109442A JP6910987B2 JP 6910987 B2 JP6910987 B2 JP 6910987B2 JP 2018109442 A JP2018109442 A JP 2018109442A JP 2018109442 A JP2018109442 A JP 2018109442A JP 6910987 B2 JP6910987 B2 JP 6910987B2
Authority
JP
Japan
Prior art keywords
recognition
data set
data
model
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018109442A
Other languages
English (en)
Other versions
JP2019211689A (ja
Inventor
康二 安田
康二 安田
長 健太
健太 長
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2018109442A priority Critical patent/JP6910987B2/ja
Priority to US16/429,911 priority patent/US11600262B2/en
Priority to CN201910490584.8A priority patent/CN110580905B/zh
Publication of JP2019211689A publication Critical patent/JP2019211689A/ja
Application granted granted Critical
Publication of JP6910987B2 publication Critical patent/JP6910987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

本発明の実施形態は、認識装置、認識システム、端末装置、サーバ装置、方法及びプログラムに関する。
一般に、例えば音声データを認識してテキストに変換する音声認識においては、音響モデル及び言語モデル等を含む認識モデルが用いられる。
このような認識モデルはデータセット(学習データ)に基づいて作成されるが、認識精度の高い認識モデルを作成するために十分なデータ量を有するデータセットを用意することは困難である。
特開2016−180915号公報
そこで、本発明の目的は、認識精度の高い認識モデルを得ることが可能な認識装置、認識システム、端末装置、サーバ装置、方法及びプログラムを提供することにある。
実施形態に係る認識装置は、格納手段と、取得手段と、認識処理手段と、抽出手段と、モデル作成手段とを具備する。前記格納手段は、予め定められた条件で収集された第1認識対象データ及び当該第1認識対象データから認識されるべき第1正解データを含む第1データセットに基づいて作成された第1認識モデル、当該第1データセット及び当該条件を表すタグを、当該第1認識モデル毎に対応づけて格納する。前記取得手段は、第2認識対象データ及び当該第2認識対象データから認識されるべき第2正解データを含む第2データセットを取得する。前記認識処理手段は、前記格納手段に格納されている第1認識モデルの各々を用いて前記第2データセットに含まれる第2認識対象データに対する認識処理を実行する。前記抽出手段は、前記認識処理結果及び前記第2データセットに含まれる第2正解データに基づいて、前記認識処理に用いられた第1認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出する。前記モデル作成手段は、前記取得された第2データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第1データセットに基づいて第2認識モデルを作成する。
実施形態に係る音声認識装置の機能構成の一例を示すブロック図。 音声認識装置のハードウェア構成の一例を示す図。 拡張用モデル登録処理の処理手順の一例を示すフローチャート。 データベースに格納されているタグの一例について説明するための図。 データベースに格納されているタグの一例について説明するための図。 関連タグ作成処理の処理手順の一例を示すフローチャート。 新規モデル作成処理の処理手順の一例を示すフローチャート。 認識精度算出処理について概念的に説明するための図。 タグ表示画面の一例を示す図。 新規モデル作成処理を概念的に表す図。 認識精度算出処理の処理手順の一例を示すフローチャート。 確認画面表示処理の処理手順の一例を示すフローチャート。 確認画面の一例を示す図。 対象データセット登録画面の一例を示す図。 確認画面の一例を示す図。 音声認識システムの構成の一例を示す図。
以下、図面を参照して、実施形態について説明する。
本実施形態に係る認識装置は、音声認識モデルを用いて音声データを認識し、当該音声データをテキストに変換する処理(音声認識処理)を実行するために用いられる音声認識装置を含む。以下、本実施形態に係る認識装置は音声認識装置であるものとして説明する。
なお、音声認識処理において用いられる音声認識モデルは、音声データの波形から変換された特徴量を入力して当該音声データ中に出現する音素を出力(抽出)するための音響モデルと当該音素を入力してテキスト(文字列)に変換するための言語モデルとを含み、例えばディープニューラルネットワーク等により実現される。
図1は、実施形態に係る音声認識装置の機能構成の一例を示すブロック図である。本実施形態に係る音声認識装置は、上記した音声認識処理を実行する機能に加えて、当該音声認識処理に用いられる音声認識モデルを作成する機能等を有する。
図1に示すように音声認識装置10は、第1モデル作成部11、関連タグ作成部12、取得部13、認識処理部14、抽出部15、第2モデル作成部16、評価部17、表示処理部18及びデータベース(格納部)19を含む。
第1モデル作成部11は、予め定められた条件で収集された音声データ(認識対象データ)及び当該音声データから認識されるべきテキスト(正解データ)を含むデータセットに基づいて音声認識モデルを作成する。第1モデル作成部11によって作成された認識モデルは、データベース19に登録される。
データベース19には、第1モデル作成部11によって作成された音声認識モデル毎に、当該音声認識モデルの作成に用いられたデータセット及び当該データセットに含まれる音声データが収集された条件を表すタグ等が対応づけて格納される。
関連タグ作成部12は、データベース19に格納されているタグに関連するタグ(以下、関連タグと表記)を作成する。なお、関連タグは、例えばデータベース19に格納されているデータセット等を用いて作成される。関連タグ作成部12によって作成された関連タグは、データベース19に格納される。
ここで、本実施形態においては、例えば所定の状況で収集される音声データに対して高い認識精度を有する音声認識モデルを作成するものとする。この場合、ユーザは、所定の状況で収集された音声データ及び当該音声データから例えば人手で書き起こされたテキストを含むデータセットを指定する。なお、本実施形態における所定の状況には、音声データが収録される環境、シチュエーション及び音声を発する話者等の概念が含まれるものとする。
上記したようにユーザによってデータセットが指定された場合、取得部13は、当該データセットを取得する。
認識処理部14は、データベース19に格納されている音声認識モデルの各々を用いて取得部13によって取得されたデータセットに含まれる音声データに対する音声認識処理を実行する。この音声認識処理によれば、音声データから音声を認識し、当該音声がテキストに変換される。
抽出部15は、認識処理部14による音声認識処理結果及び取得部13によって取得されたデータセットに含まれるテキストに基づいて、音声認識処理に用いられた音声認識モデルに対応づけてデータベース19に格納されているタグの中から有意なタグを抽出する。
第2モデル作成部16は、抽出部15によって抽出されたタグに対応づけてデータベース19に格納されているデータセットを取得する。第2モデル作成部16は、取得部13によって取得されたデータセット及び当該第2モデル作成部16によって取得されたデータセットに基づいて、音声認識モデルを作成する。第2モデル作成部16によって作成された音声認識モデルは、データベース19に登録される。
評価部17は、第2モデル作成部16によって作成された音声認識モデルの認識精度(評価値)を算出する。
表示処理部18は、評価部17によって算出された認識精度をユーザに対して表示する。また、表示処理部18は、上記した第2モデル作成部16による音声認識モデルの作成の前に、上記した抽出部15によって抽出されたタグをユーザに対して表示してもよい。
図1においては音声認識装置10がデータベース19を備えるものとして説明したが、データベース19は当該音声認識装置10の外部に設けられていても構わない。
図2は、図1に示す音声認識装置10のハードウェア構成の一例を示す。なお、本実施形態において、音声認識装置10は例えばパーソナルコンピュータ等の電子機器として実現され得る。
図2に示すように、音声認識装置10は、CPU101、システムコントローラ102、主メモリ103、BIOS−ROM104、不揮発性メモリ105、ディスプレイ106、通信デバイス107及びエンベデッドコントローラ(EC)108等を備える。
CPU101は、音声認識装置10内の様々なコンポーネントの動作を制御するハードウェアプロセッサである。CPU101は、ストレージデバイスである不揮発性メモリ105から主メモリ103にロードされる様々なプログラムを実行する。これらプログラムにはオペレーティングシステム(OS)103a及び様々なアプリケーションプログラムが含まれている。本実施形態において、CPU101によって実行されるアプリケーションプログラムには、例えば上記した音声認識モデルを作成する機能及び当該音声認識モデルを用いた音声認識処理を実行する機能等を実現するための音声認識プログラム103bが含まれる。
なお、上記した図1に示す各部11〜18の一部または全ては、CPU101(つまり、音声認識装置10のコンピュータ)に音声認識プログラムを実行させること、すなわちソフトウェアによって実現されるものとする。この音声認識プログラムは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、またはネットワークを通じて音声認識装置10にダウンロードされてもよい。なお、これらの各部11〜18の一部または全ては、IC(Integrated Circuit)等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。また、図1に示すデータベース19は、例えば不揮発性メモリ105またはその他の記憶装置を用いて実現され得る。
CPU101は、BIOS−ROM104に格納された基本入出力システム(BIOS)も実行する。BIOSは、ハードウェア制御のためのプログラムである。
システムコントローラ102は、CPU101のローカルバスと各種コンポーネントとの間を接続するデバイスである。
ディスプレイ106は、例えばLCD(Liquid Crystal Display)等の表示装置である。通信デバイス107は、有線または無線による通信を実行するように構成されたデバイスである。EC108は、電力管理のためのエンベデッドコントローラを含むワンチップマイクロコンピュータである。
なお、図2においては、CPU101、システムコントローラ102、主メモリ103、BIOS−ROM104、不揮発性メモリ105、ディスプレイ106、通信デバイス107及びEC108のみが示されているが、音声認識装置10は、例えばHDD(Hard Disk Drive)及びSSD(Solid State Drive)のような他の記憶装置を備えていてもよいし、他の入力装置及び出力装置等を備えていてもよい。
次に、本実施形態に係る音声認識装置10の動作について説明する。本実施形態においては、例えば所定の状況において収録された音声データに対して認識精度の高い音声認識モデルを新規に作成する処理(以下、新規モデル作成処理と表記)を実行するが、当該新規モデル作成処理においては、後述するようにデータベース19に予め登録された複数の音声認識モデルが利用される。
このため、音声認識装置10は、上記した新規モデル作成処理の前に、当該新規モデル作成処理において利用される音声認識モデルをデータベース19に登録する処理(以下、拡張用モデル登録処理と表記)を実行する。
まず、図3のフローチャートを参照して、拡張用モデル登録処理の処理手順の一例について説明する。拡張用モデル登録処理は、第1モデル作成部11によって実行される。以下の説明においては、拡張用モデル登録処理においてデータベース19に登録される音声認識モデルを便宜的に拡張用モデルと称する。
第1モデル作成部11は、予め用意されているデータセットを取得する(ステップS1)。ステップS1において取得されるデータセットは、例えば予め定められた条件(実環境下)で収集された音声データ及び当該音声データに基づく音声を例えば人手によって書き起こしたテキストのペア(以下、データペアと表記)を含む。なお、データセットには、複数のデータペアが含まれる。
ここで、音声データが収集された条件には、例えば収録条件及び話者条件等が含まれる。収録条件は、音声データを収録(収集)した環境に関する条件であり、例えば収録場所、屋内/屋外、騒音の有無、音声データを収録したマイクの種類、及び音声データを収録した際に音声を発した人物と音声データを収録したマイクとの距離(以下、収録距離と表記)等を含む。また、話者条件は、音声データを収録した際に音声を発した人物(話者)に関する条件であり、例えば性別及び年齢等を含む。
なお、ステップS1において取得されるデータセットに含まれる複数のデータペアの各々における音声データは同一のまたは少なくとも一部が共通する収録条件及び話者条件で収集されたものであり、当該収録条件及び話者条件は判明しているものとする。
第1モデル作成部11は、ユーザによって指定された収録条件及び話者情報を取得する(ステップS2)。なお、本実施形態におけるユーザとは、例えば音声認識装置10の管理者であってもよいし、後述する新規モデル作成処理によって新規に作成される音声認識モデルを使用する者であってもよい。以下の説明においても同様である。
ここで、認識精度の高い音声認識モデルを作成するためには多数のデータペアが必要であるところ、当該音声データは予め定められた条件で収集されなければならず、十分なデータ量を有するデータセットを用意することは困難である場合が多い。
このため、第1モデル作成部11は、ステップS1において取得されたデータセットのデータ量が認識精度の高い音声認識モデルを作成するために十分であるか否かを判定する(ステップS3)。
ステップS3においては、例えばステップS1において取得されたデータセットに含まれる音声データの合計時間(合計の長さ)が予め定められた値(例えば、10時間等)以上である場合には、当該データセットのデータ量が十分であると判定される。一方、ステップS1において取得されたデータセットに含まれる音声データの合計時間が予め定められた値以上でない場合には、当該データセットのデータ量が十分でないと判定される。
ここでは、データセットに含まれる音声データの合計時間に基づいてデータ用が十分であるか否かが判定されるものとして説明したが、例えばデータセットに含まれるテキストを構成する総文字数(または総単語数)が予め定められた値以上であるか否かに基づいて、当該データセットのデータ量が十分であるか否かが判定されてもよい。
ここで、上記したように予め定められた条件(収録条件及び話者条件)を満たす十分なデータ量を有するデータセットを用意することは困難であったとしても、例えば収録条件は満たさないものの話者条件を満たす音声データについては比較的容易に用意することが可能な場合がある。
このため、ステップS3においてデータセットのデータ量が十分でないと判定された場合(ステップS3のNO)、第1モデル作成部11は、例えば予め用意された上記したステップS2において取得された話者条件を満たす音声データ及び当該音声データに基づく音声から人手で書き起こされたテキストを含むデータセットを取得する(ステップS4)。なお、ステップS3において取得されるデータセットに含まれる音声データは、上記した収録条件の影響を受けておらず、残響やノイズ等のないクリアな音声データであるものとする。
第1モデル作成部11は、上記したステップS2において取得された収録条件(ノイズの生成条件)に基づくノイズを、ステップS4において取得されたデータセットに含まれる音声データに付与する(ステップS5)。これにより、音声認識モデルを作成するためのデータセット(音声データ)を拡張(水増し)することができる。
なお、ステップS5において音声データに付与されるノイズには、収録条件で生じると想定される生活音または機械の動作音等が含まれる。また、ステップS5においては、予め用意されたシミュレーション等を用いて生成された残響ノイズ等が付与されてもよい。
ステップS4においては例えば話者条件を満たす音声データを含むデータセットが取得されるものとして説明したが、ステップS2において取得された収録条件及び話者条件で収集された音声データと同様の音声データを得ることが可能であれば、ステップS4においては他の条件で収集された音声データが取得されてもよい。また、ステップS5においては、ステップS3において取得されたデータセット(音声データ)に応じてノイズを付与する以外の他の処理が実行されてもよい。
次に、第1モデル作成部11は、ステップS1において取得されたデータセット及びステップS5において音声データにノイズが付されたデータセットに基づいて拡張用モデル(音声認識モデル)を作成する(ステップS6)。拡張用モデルは、例えば、ステップS1において取得されたデータセット及びステップS5において音声データにノイズが付されたデータセットに含まれる音声データ及びテキストのデータペアを順次学習することによって作成される。
第1モデル作成部11は、ステップS2において取得された収録条件及び話者条件に基づいて、音声データが収集された条件を表すタグを作成する(ステップS7)。ステップS2において取得された収録条件に例えば収録場所がコールセンターであることが含まれている場合、第1モデル作成部11は、「コールセンター」をタグとして生成する。また、ステップS2において取得された話者条件に例えば20代の女性であることが含まれている場合、第1モデル作成部11は、「20代」及び「女性」をタグとして生成する。このようにステップS6においては、複数のタグが作成されても構わない。
なお、上記した収録条件に騒音の有無が含まれている場合には「騒音あり」または「騒音なし」のタグを作成可能であるが、当該収録条件に騒音の有無が含まれていない場合であっても、例えばデータセットに含まれる音声データを解析することによって騒音の有無を判定し、当該判定結果に基づいて「騒音あり」または「騒音なし」のタグを作成してもよい。
ステップS6において作成された拡張用モデルは、当該拡張用モデルの作成に用いられたデータセット(ステップS1において取得されたデータセット及びステップS5において音声データにノイズが付与されたデータセット)及びステップS7において作成されたタグに対応づけて、データベース19に登録される(ステップS8)。
一方、ステップS3においてデータセットのデータ量が十分であると判定された場合(ステップS3のYES)、ステップS4及びS5の処理は実行されず、ステップS6以降の処理が実行される。この場合のステップS6においては、ステップS1において取得されたデータセットに基づいて拡張用モデルが生成されればよい。
上記した拡張用モデル登録処理により、拡張用モデルは、データセット及びタグとともにデータベース19において一元管理される。このようにデータベース19において管理される拡張用モデルは、後述する新規モデル作成処理において用いられる。
なお、拡張用モデル登録処理は、音声データが収集される条件(つまり、状況)毎に実行される。すなわち、データベース19には、異なる収録条件及び話者条件によって特定される状況で収集される音声データに対する音声認識に特化した(つまり、当該音声データに対して高い認識精度を有する)音声認識モデルがそれぞれ登録される。
ここで、図4及び図5を参照して、上記した拡張用モデルに対応づけてデータベース19に格納されているタグの一例について説明する。
図4は、拡張用モデルAの作成に用いられたデータセットに含まれる音声データが収集された条件(収録条件及び話者条件)を表すタグの一例を示す。図5は、拡張用モデルBの作成に用いられたデータセットに含まれる音声データが収集された条件(収録条件及び話者条件)を表すタグの一例を示す。
図4に示す例では、拡張用モデルAに対応づけてタグ「屋外」、「工場」、「騒音あり」、「マイクA」、「男性」、「20代」及び「1m」がデータベース19に格納されていることが示されている。
これによれば、拡張用モデルAの作成に用いられたデータセットに含まれる音声データが騒音のある工場の屋外で収録されたことが示されている。また、拡張用モデルAの作成に用いられたデータセットに含まれる音声データは、20代の男性が発した音声を、当該男性から1mの距離にあるマイクAを用いて収録したデータであることが示されている。
なお、図4に示すタグのうち「屋外」、「工場」、「騒音あり」、「マイクA」及び「1m」は、上記した収録条件から生成されたタグである。また、図4に示すタグのうち「男性」及び「20代」は、上記した話者条件から生成されたタグである。
一方、図5に示す例では、拡張用モデルBに対応づけてタグ「屋内」、「コールセンター」、「騒音なし」、「マイクB」、「女性」、「20代」及び「5cm」がデータベース19に格納されていることが示されている。
これによれば、拡張用モデルBの作成に用いられたデータセットに含まれる音声データが騒音のないコールセンターの屋内で収録されたことが示されている。また、拡張用モデルBの作成に用いられたデータセットに含まれる音声データが20代の女性が発した音声を、当該女性から5cmの距離にあるマイクBを用いて収録したデータであることが示されている。
なお、図5に示すタグのうち「屋内」、「コールセンター」、「騒音なし」、「マイクB」及び「5cm」は、上記した収録条件から生成されたタグである。また、図5に示すタグのうち「女性」及び「20代」は、上記した話者条件から生成されたタグである。
ここでは、拡張用モデルA及び拡張用モデルBの各々に対応づけてデータベース19に格納されているタグについて説明したが、データベース19には、他の条件で収集された音声データを含むデータセットを用いて作成された他の拡張用モデルについても同様にタグが格納されている。
ここで、上記した図4及び図5において説明したタグは例えばテキスト(文字情報)としてデータベース19に格納されているが、当該タグは、テキスト以外であってもよい。具体的には、例えば拡張用モデルAの作成に用いられたデータセットに含まれる音声データの特徴量をDeep−auto Encoder(DAE)を用いて抽出することによって、当該特徴量のキー値(key−value)を特徴ベクトルとして扱うことができる。この場合、この特徴ベクトルをタグとして利用しても構わない。このように、本実施形態におけるタグは、上記したユーザによって指定された収録条件及び話者条件等に基づくものだけではなく、例えば音声データ等から機械的に抽出された値(数値またはベクトル等)であってもよい。
上記したようにデータベース19には、拡張用モデル、当該拡張用モデルの作成に用いられたデータセット及び当該データセットに含まれる音声データが収集された条件を表すタグが拡張用モデル毎に格納されるが、以下の説明においては、当該拡張用モデルに対応づけてデータベース19に格納されているデータセット及びタグについては便宜的に拡張用モデルのデータセット及び拡張用モデルのタグと称する。
次に、図6のフローチャートを参照して、関連タグ作成処理の処理手順の一例について説明する。関連タグ作成処理は、上記した拡張用モデル登録処理と同様に新規モデル作成処理の前に実行される処理であって、拡張用モデル登録処理においてデータベース19に登録されたタグに関連する関連タグを作成する処理である。なお、関連タグ作成処理は、関連タグ作成部12によって実行される。
関連タグ作成処理は、データベース19に格納されている拡張用モデル(拡張用モデルのデータセット)毎に実行される。以下、関連タグ作成処理の対象となる拡張用モデルを対象拡張用モデルと称する。
まず、関連タグ作成部12は、対象拡張用モデルのデータセットに含まれるテキスト(以下、対象テキストと表記)をデータベース19から取得する(ステップS11)。
次に、関連タグ作成部12は、ステップS11において取得された対象テキストを解析することによって、当該対象テキストからキーワードを抽出する(ステップS12)。なお、ステップS12において抽出されるキーワードは、対象テキストにおいて出現頻度の高い単語等を含む。また、キーワードは、例えば対象拡張用モデルのタグであってもよい。
関連タグ作成部12は、ステップS12において抽出されたキーワードを用いて関連テキストを取得する(ステップS13)。関連テキストは、例えばWebサイト等から取得される(つまり、クローリングによって取得される)テキストであってもよいし、音声認識装置10内に予め格納されているテキストであってもよい。ステップS13においては、複数の関連テキストが取得される。
関連タグ作成部12は、ステップS13において取得された複数の関連テキストに対してテキスト処理を実行する(ステップS14)。このテキスト処理には、例えばクラスタリング処理またはトピック分類(分析)処理等が含まれる。クラスタリング処理は、複数の関連テキストを複数のクラスタに分類する処理である。トピック分類処理は、複数の関連テキストから主題(トピック)を抽出する処理である。
関連タグ作成部12は、ステップS14におけるテキスト処理の結果に基づいて関連タグを作成する(ステップS15)。上記したテキスト処理としてクラスタリング処理が実行されている場合、関連タグ作成部12は、各クラスタ(当該クラスタに分類された関連テキスト)の特徴を表す単語等を関連タグとして作成することができる。また、テキスト処理としてトピック分類処理が実行されている場合、関連タグ作成部12は、当該トピック分類処理によって抽出された主題を表す単語等を関連タグとして作成することができる。
ステップS15の処理が実行されると、関連タグ作成部12は、当該ステップS15において作成された関連タグをデータベース19に登録する(ステップS16)。関連タグは、対象拡張用モデルまたは当該対象拡張用モデルのタグに関連づけて格納される。
上記した関連タグ作成処理によれば、対象拡張用モデルまたは当該対象拡張用モデルのタグに関連する関連タグを自動的に作成及び登録することができる。データベース19に登録された関連タグは、後述する新規モデル作成処理において用いられる。
次に、図7のフローチャートを参照して、上記した新規モデル作成処理の処理手順の一例について説明する。
新規モデル作成処理は、例えばユーザが用意したデータセット(所定の状況で収集された音声データ及び当該音声データから人手で書き起こされたテキストのペア)に基づいて、当該状況(条件)で収集される音声データに対して高い認識精度を有する新規な音声認識モデル(以下、新規モデルと表記)を作成するための処理である。
まず、取得部13は、上記したユーザが用意したデータセット(以下、対象データセット表記)を取得する(ステップS21)。
次に、認識精度算出処理が実行される(ステップS22)。この認識精度算出処理は、対象データセットに対するデータベース19に格納されている拡張用モデル毎の認識精度を算出するための処理である。
ここで、図8を参照して、ステップS22において実行される認識精度算出処理について概念的に説明する。
図8に示すように、認識精度算出処理においては、対象データセットに含まれる音声データの各々に対する拡張用モデルを用いた音声認識処理が、データベース19に格納されている拡張用モデル毎に認識処理部14によって実行される。
認識精度算出処理においては、認識処理部14による音声認識処理結果に基づいて各拡張用モデルの認識精度が算出される。
図8に示す例では、拡張用モデルAの認識精度としては60%、拡張用モデルBの精度としては82%、拡張用モデルCの認識精度としては78%、拡張用モデルDの認識精度としては80%、拡張用モデルEの認識精度としては72%が算出されている。なお、図8には拡張用モデルA〜Eの認識精度について示されているが、他の拡張用モデルの認識精度についても同様に算出される。
ここでは、認識精度算出処理について概念的に説明したが、当該認識精度算出処理の詳細については後述する。
再び図7に戻ると、抽出部15は、ステップS22において算出された拡張用モデル毎の認識精度に基づいて、データベース19に格納されている各拡張用モデルのタグの中から有意なタグを抽出する(ステップS23)。なお、ステップS23において抽出されるタグは複数であってもよい。
ここで、ステップS23の処理について説明する。ステップS23において、抽出部15は、ステップS22において算出された拡張用モデル毎の認識精度を、当該拡張用モデルのタグの精度とする。
例えば上記した図4に示すように拡張用モデルAのタグが「屋外」、「工場」、「騒音あり」、「マイクA」、「男性」、「20代」及び「1m」であり、図8に示すように当該拡張用モデルAの認識精度が60%であるものとすると、当該拡張用モデルAのタグの各々の精度を60%とする。
また、図4に示すように拡張用モデルBのタグが「屋内」、「コールセンター」、「騒音なし」、「マイクB」、「女性」、「20代」及び「5cm」であり、図8に示すように当該拡張用モデルBの認識精度が82%であるものとすると、当該拡張用モデルBのタグの各々の精度を82%とする。
ここでは拡張用モデルA及び拡張用モデルBのタグについて説明したが、他の拡張用モデルのタグについても同様である。
なお、例えば拡張用モデルA及び拡張用モデルBのタグ「20代」のように、同一のタグが異なる複数の拡張用モデルに対応づけられている場合があるが、この場合には、例えば各拡張用モデルの認識精度の分布により決定される平均値または中央値といった代表値を当該タグの精度とする。また、同一のタグに対応づけられている複数の拡張用モデルの認識精度のうちの高い方を当該タグの精度としてもよい。
次に、抽出部15は、全てのタグの精度(拡張用モデルの認識精度)を用いてt検定を行うことにより、当該タグの中から有意なタグを抽出する。このt検定によれば、各タグについてt値と称される検定統計量が算出され、当該t値はp値に変換される。このp値が例えば0.05以下である場合、当該p値に変換されたt値は十分に大きい値であるものとみなすことができ、抽出部15は、当該t値が算出されたタグを有意なタグとして抽出することができる。本実施形態において有意なタグとは、精度(正解率)が有意に高いタグを意味する。
なお、有意なタグを抽出するためにp値と比較する閾値は0.05であるものとして説明したが、当該閾値は例えば0.1等であっても構わない。
また、ここでは全てのタグの精度を用いてt検定を行うものとして説明したが、例えば予め定められた値以上のタグの精度を用いてt検定を行うようにしてもよい。
更に、本実施形態においてはt検定を行うものとして説明したが、有意なタグを抽出することが可能であれば、当該有意なタグを抽出するために用いられる統計量を算出する他の手法が用いられてもよい。また、例えば精度が予め定められた値以上のタグを有意なタグとして抽出するような構成としても構わない。
次に、表示処理部18は、ステップS23において抽出したタグを表示する(ステップS24)。なお、ステップS23において抽出されたタグは、音声認識装置10に備えられるディスプレイ106に表示されてもよいし、当該音声認識装置10の外部に設けられた別の表示装置等に表示されてもよい。
ここで、図9は、ステップS23において抽出されたタグが表示された際の表示画面(以下、タグ表示画面と表記)の一例を示す。
図9に示すタグ表示画面200には、上記したステップS24において抽出されたタグが「有意なタグ一覧」として表示される。図9においては、有意なタグとしてタグ「マイクB」、「女性」、「屋内」及び「20代」が表示された例が示されている。
ここで、タグ表示画面200に表示されたタグには、それぞれ対応するチェックボックス201が設けられている。ユーザは、例えば音声認識装置10を操作してタグ表示画面200上のチェックボックス201を指定することによって、タグ表示画面200に表示されたタグの中から当該チェックボックス201に対応するタグを指定(選択)することができる。
なお、タグ表示画面200においては例えば対象データセットに含まれる音声データが収集された条件を表すようなタグが選択されることが好ましいが、各タグの精度は対象データセットに対する拡張用モデル(音声認識モデル)の認識精度に基づくものであるから、当該認識精度の高い拡張用モデルのタグは、対象データセットに含まれる音声データが収集された条件に近い条件を表すタグである可能性が高い。このため、タグ表示画面200においては、タグを選択する際のユーザの負担を軽減するために、例えば精度が高い順に(つまり、降順で)タグが表示されるものとする。
また、タグ表示画面200には、「検索に追加するタグ」欄202が設けられている。ユーザは、音声認識装置10を操作することによって、欄202に対象データセットに含まれる音声データが収集された条件を表すようなタグを入力(追加)することができる。
図9においては省略されているが、タグ表示画面200には、例えば「有意なタグ一覧」として表示されているタグに関連する関連タグ(または当該タグに対応づけてデータベース19に格納されている拡張用モデルに関連する関連タグ)が更に表示されていてもよい。この関連タグは、上記した図6に示す関連タグ作成処理において作成されたタグであり、データベース19から取得可能である。この場合、ユーザは、上記した「有意なタグ一覧」として表示されているタグと同様に、タグ表示画面200に表示された関連タグの中から所望の関連タグを選択することができる。
上記したようにタグ表示画面200においてはユーザが所望のタグを選択または入力することが可能であるが、当該タグは、1つであってもよいし、複数であってもよい。
また、タグ表示画面200には、例えば「新規モデルを作成する」と表記されたボタン203が設けられている。上記したタグの選択または入力が完了した場合、ユーザは、このボタン203を押下する操作を行うことによって、新規モデルの作成を指示する。
なお、ユーザによるタグの選択を支援するために、タグ表示画面200には、当該タグの確信度等が更に表示されていてもよい。各タグの確信度は、全てのタグの精度(t値)の分布の中心位置からの当該タグの精度の位置(距離)等に基づいて算出される値であってもよい。また、タグ表示画面200には、図7に示すステップS1において取得された対象データセットに含まれる音声データ及びテキスト(のファイル名)等の他の情報が更に表示されていても構わない。
以下の説明においては、タグ表示画面200においてユーザによって選択または入力されたタグを便宜的に指定タグと称する。
再び図7に戻ると、第2モデル作成部16は、ユーザの操作に応じて指定タグ(の情報)を取得し、当該指定タグに基づいて拡張データセットを取得する(ステップS25)。ステップS25においては、指定タグに対応づけてデータベース19に格納されている拡張用モデルのデータセット(つまり、指定タグによって表される条件で収集された音声データを含むデータセット)が拡張データセットとして取得される。
なお、上記したタグ表示画面200において複数のタグが選択または入力されている場合は、当該複数のタグ(指定タグ)の全てに対応づけられている拡張用モデルのデータセットが取得されるものとする。
例えば図9に示すように、タグ表示画面200において、タグ「マイクB」、「女性」及び「20代」が選択された場合を想定する。ここで、図5を参照すると、拡張用モデルBのタグには、タグ「マイクB」、「女性」及び「20代」の全てが含まれる。このため、ステップS25においては、拡張用モデルBのデータセットが取得される。一方、図4に示す拡張用モデルAのタグには、タグ「20代」は含まれるものの、タグ「マイクA」及び「女性」は含まれない。このため、ステップS25においては、拡張用モデルAのデータセットは取得されない。
次に、第2モデル作成部16は、ステップS21において取得された対象データセット及びステップS25において取得された拡張データセットのデータ量が認識精度の高い音声認識モデルを作成するために十分であるか否かを判定する(ステップS26)。なお、このステップS26の処理は上記した図3に示すステップS3の処理と同様であるため、ここではその詳しい説明を省略する。
対象データセット及び拡張データセットのデータ量が十分でないと判定された場合(ステップS26のNO)、第2モデル作成部16は、拡張データセットとして追加するデータセット(以下、追加データセット表記)を生成する(ステップS27)。
ここで、ステップS27の処理について説明する。ステップS27において、第2モデル作成部16は、クローリングによってWebサイト等から関連テキストを取得する。なお、ここで取得される関連テキストは、例えば指定タグを含むテキストであってもよいし、データベース19に格納されている当該指定タグに関連する関連タグを含むテキストであってもよい。
第2モデル作成部16は、取得された関連テキストを音声化(音声合成処理)することによって、当該テキストを読み上げる音声データ(合成音声データ)を生成する。なお、この音声データは、テキストを構成する各文字に対応する音素を組み合わせることによって生成される。また、ここで生成される音声データは、対象データセットに含まれる音声データが収集された条件(収録条件及び話者条件)で収録されたような音声データとなるように更に加工されても構わない。具体的には、音声データには、例えば指定タグによって表される条件で生じると想定されるノイズ等が付与されてもよい。
第2モデル作成部16は、生成された音声データ及び当該音声データを生成するために用いられた関連テキストを含む追加データセットを生成する。
第2モデル作成部16は、ステップS21において取得された対象データセット、ステップS25において取得された拡張データセット及びステップS27において生成された追加データセットに基づいて新規モデル(音声認識モデル)を作成する(ステップS28)。なお、ステップS28の処理は上記した図3に示すステップS5の処理と同様の処理であるため、ここではその詳しい説明を省略する。
第2モデル作成部16は、ステップS28において作成された新規モデルをデータベース19に登録する(ステップS29)。なお、新規モデルは、例えば指定タグ及び当該新規モデルの作成に用いられたデータセット(対象データセット、拡張データセット及び追加データセット)に対応づけてデータベース19に登録される。
なお、ステップS26において対象データセット及び拡張データセットのデータ量が十分であると判定された場合(ステップS26のNO)、ステップS27の処理は実行されない。この場合、ステップS28においては、対象データセット及び拡張データセットに基づいて新規モデルが作成されればよい。
ここで、図10は、上記した新規モデル作成処理を概念的に表す図である。図10においては、対象データセットに基づいて新規モデルFを作成する場合について説明する。
この場合において、上記したタグ表示画面200においてタグ「マイクB」、「女性」及び「20代」がユーザによって選択された場合を想定する。
この場合には、対象データセットに加えて、タグ「マイクB」、「女性」及び「20代」に対応づけてデータベース19に格納されている拡張用モデルBのデータセット(当該拡張用モデルBの作成に用いられたデータセット)を拡張データセットとして用いて新規モデルFを作成することができる。なお、この新規モデルFは、ユーザが選択したタグ「マイクB」、「女性」及び「20代」に対応づけてデータベース19に登録される。
すなわち、上記したように新規モデル作成処理においては、例えばユーザが用意したデータセット(対象データセット)のデータ量が不足しているような場合であっても、当該データセットに含まれる音声データが収集された条件に近い条件で収集されたと想定される音声データを含むデータセット(拡張データセット)で補うことにより、認識精度の高い新規モデルを作成することが可能となる。
新規モデル作成処理において作成された新規モデルは、別途入力される音声データに対する音声認識処理に用いられるとともに、例えば別のデータセット(対象データセット)から新規モデルを作成する際の拡張用モデルとしても利用することができる。
なお、図7においてはステップS27の処理が実行された後にステップS28の処理が実行されるものとして説明したが、当該ステップS27の処理が実行された後に、ステップS26の処理が再度実行されるようにしても構わない。これによれば、認識精度の高い新規モデルの作成に必要なデータ量を確実に確保することが可能となる。
また、図7においてはステップS26及びS27の処理が実行されるものとして説明したが、本実施形態においては、上記したように対象データセットに加えて拡張データセットを用いて新規モデルが作成されるのであれば、少なくとも対象データセットのみを用いて新規モデルが作成される場合と比較して認識精度の高い音声認識モデルを作成することが可能である。このため、新規モデル作成処理においては、ステップS26及びS27の処理が実行されない構成としても構わない。
次に、図11のフローチャートを参照して、上記した認識精度算出処理(図7に示すステップS22の処理)の処理手順の一例について説明する。なお、認識精度算出処理は上記した図7に示すステップS21の処理の後に実行されるが、当該ステップS21において取得された対象データセットには、複数のデータペア(音声データ及びテキストのペア)が含まれているものとする。
認識精度算出処理においては、データベース19に格納されている拡張用モデルの各々について以下のステップS31〜S35の処理が実行される。以下の説明においては、ステップS31〜S34の処理の対象となる拡張用モデルを対象拡張用モデルと称する。
この場合、認識処理部14は、上記した対象データセットに含まれる複数のデータペアのうちの1つをデータベース19から取得する(ステップS31)。ステップS31において取得されたデータペアを便宜的に対象データペアと称する。
次に、認識処理部14は、対象拡張用モデルを用いて、対象データペアに含まれる音声データに対する音声認識処理を実行する(ステップS32)。
この音声認識処理においては、例えば対象データペアに含まれる音声データの波形から変換された特徴量が対象拡張用モデル(音声認識モデル)を構成する音響モデルに入力され、当該音声データ中に出現する音素が当該音響モデルから出力される。また、音響モデルから出力された音素は、対象拡張用モデルを構成する言語モデルに入力され、テキストに変換される。これにより、認識処理部14は、音声認識処理の結果として音声データから変換されたテキストを取得することができる。
ここで、対象データセットに含まれる全てのデータペア(音声データ)について音声認識処理が実行されたか否かが判定される(ステップS33)。
全てのデータペアについて音声認識処理が実行されていないと判定された場合(ステップS33のNO)、ステップS31に戻って処理が繰り返される。この場合のステップS31においては、音声認識処理が実行されていないデータペアが取得される。
一方、全てのデータペアについて音声認識処理が実行されたと判定された場合(ステップS33のYES)、抽出部15は、ステップS32における音声認識処理の結果(以下、認識結果テキストと表記)と当該音声認識処理が実行された音声データを含むデータペアに含まれるテキスト(以下、正解テキストと表記)とを比較することによって、対象拡張用モデルの認識精度を算出する(ステップS34)。
ここで、ステップS34の処理が実行される時点では、ステップS32の処理が繰り返し実行されることによって、対象データセットに含まれるデータペア毎に認識結果テキストが取得されている。この場合、抽出部15は、例えばデータペア毎に認識結果テキスト及び正解テキストが一致するか否かを判定する。これによれば、抽出部15は、対象データセットに含まれる全てのデータペアの数に対する、認識結果テキスト及び正解テキストが一致すると判定されたデータペアの数の割合を、対象拡張用モデルの認識精度として算出することができる。
なお、対象拡張用モデルの認識精度は、例えば全てのデータペアに含まれるテキスト(正解テキスト)を構成する文字または単語の数に対する、認識結果テキスト及び正解テキスト間で一致した文字または単語の数の割合等として算出されてもよい。
次に、データベース19に格納されている全ての拡張用モデルについてステップS31〜S34の処理が実行されたか否かが判定される(ステップS35)。
全ての拡張用モデルについて処理が実行されていないと判定された場合(ステップS35のNO)、上記したステップS31に戻って処理が繰り返される。この場合、ステップS31〜S34の処理が実行されていない拡張用モデルを対象拡張用モデルとして処理が実行される。
一方、全ての拡張用モデルについて処理が実行されたと判定された場合(ステップS35のYES)、認識精度算出処理は終了される。
上記した認識精度算出処理によれば、データベース19に格納されている拡張用モデル毎に認識精度が算出される。認識精度算出処理が実行された後は、上記した図7に示すステップS23以降の処理が実行される。
ここで、上記した図7に示す新規モデル作成処理においては、ステップS28において作成された新規モデルがステップS29においてデータベース19に登録されるものとして説明したが、当該ステップS29の処理が実行される前に、当該新規モデルの登録の可否をユーザに対して確認する確認画面が表示されても構わない。
以下、図12のフローチャートを参照して、確認画面を表示する際の処理(以下、確認画面表示処理と表記)の処理手順の一例について説明する。
まず、図7に示すステップS28の処理が実行された場合、例えば第2モデル作成部16は、図7に示すステップS21において取得された対象データセットに基づいて音声認識モデル(以下、評価用モデルと表記)を作成する(ステップS41)。なお、この評価用モデルを作成する処理は前述した図3に示すステップS5の処理等と同様の処理であるため、ここではその詳しい説明を省略する。
評価部17は、ステップS41において作成された評価用モデルの認識精度を算出する(ステップS42)。なお、このステップS42の処理は、図11において説明した拡張用モデルを評価用モデルとした点以外は当該図11に示すステップS31〜S34の処理と同様であるため、ここではその詳しい説明を省略する。
次に、評価部17は、新規モデルの認識精度(評価値)を算出する(ステップS43)。なお、このステップS43の処理は、図11において説明した拡張用モデルを新規モデルとした点以外は当該図11に示すステップS31〜S34の処理と同様であるため、ここではその詳しい説明を省略する。
表示処理部18は、ステップS42において算出された評価用モデルの認識精度及びステップS43において算出された新規モデルの認識精度を含む確認画面を表示する(ステップS44)。
ここで、図13は、ステップS44において表示される確認画面の一例を示す。図13に示す確認画面300には、上記した図9に示すタグ表示画面200と同様に、図7に示すステップS24において抽出されたタグが「有意なタグ一覧」として表示されている。なお、上記したタグ表示画面200においてユーザによって選択されたタグは、当該タグに対応するチェックボックス301で示されている。
また、確認画面300には、上記した評価用モデルの認識精度及び新規モデルの認識精度が対比可能な態様で表示されている。図13に示す例では、「認識精度 72%→87%」が表示されている。
この「認識精度 72%→87%」の表示は、評価用モデル(つまり、対象データセットのみを用いて作成された音声認識モデル)の認識精度が72%であったのに対し、新規モデル(つまり、対象データセット及び拡張データセットを用いて作成された音声認識モデル)の認識精度が87%であることを示している。
これによれば、ユーザは、評価用モデルに対して新規モデルの認識精度が向上していることを確認し、確認画面300に設けられている「新規モデルを採用」と表記されたボタン302を押下することができる。このボタン302は、新規モデルをデータベース19に登録することを許可(指示)するためのボタンである。ユーザによってボタン302が押下(指定)された場合には、上記した図7に示すステップS29の処理が実行され、新規モデルがデータベース19に登録される。
なお、確認画面300には、「モデルに追加するタグ」欄303が設けされている。ユーザは、音声認識装置10を操作することによって、この欄303に新規モデルに対応づけてデータベース19に登録されるタグを入力(追加)することができる。
具体的には、上記したように図7に示すステップS29において、新規モデル(音声認識モデル)は指定タグに対応づけてデータベース19に登録されるが、欄303にタグが入力されて上記したボタン302が押下された場合、新規モデルは、指定タグ及び当該欄303に入力されたタグに対応づけてデータベース19に登録される。すなわち、ユーザは、例えば当該ユーザが認識している対象データセットに含まれる音声データが収集された条件(収録条件及び話者条件)を表すタグを欄303に入力することによって、ユーザが意図するタグを新規モデルのタグとして追加することができる。
なお、上記した評価用モデルに対する新規モデルの認識精度によっては、ユーザが新規モデルをデータベース19に登録しないという判断をすることもあり得る。この場合、図13には示されていないが、例えば指定タグを変更して、新規モデルを再度作成することを指示することが可能なようにしてもよい。この場合、変更された指定タグを用いて、図7に示すステップS25以降の処理が再度実行されればよい。これによれば、より認識精度の高い新規モデルを作成することができる可能性がある。
上記したように確認画面表示処理においては、評価用モデルに対する新規モデルの認識精度を確認して当該新規作成モデルの登録を指示させる確認画面をユーザに対して表示することが可能となる。このような確認画面を表示する構成によれば、ユーザの意図しない新規モデルが登録されることを抑制することができる。
図13に示す例では評価用モデルの認識精度が表示されるものとして説明したが、確認画面300には少なくとも新規モデルの認識精度が表示されればよい。評価用モデルの認識精度を表示しない場合には、図12に示すステップS41及びS42の処理は省略されてもよい。
なお、本実施形態においては、上記したタグ表示画面200においてユーザにタグを選択させるものとして説明したが、例えば当該タグ表示画面200を表示する(つまり、ユーザにタグを選択させる)ことなく、自動的に新規モデルが作成されるようにしても構わない。
以下、上記したように自動的に新規モデルが作成される際の音声認識装置10の動作の一例について説明する。
新規モデルが作成される場合、例えば図14に示す対象データセット登録画面400が表示される。
この対象データセット登録画面400には、対象データセット指定欄401及び登録ボタン402が設けられている。
ユーザは、対象データセット指定欄401において、ユーザが用意したデータセット(対象データセット)を含むファイルを指定することができる。対象データセット指定欄401においてファイルが指定された後に、登録ボタン402が押下されると、新規モデルを作成する処理が開始される。この場合、例えば図7に示すステップS21〜S23の処理が実行される。
なお、図14に示す対象データセット登録画面400は、図7に示す新規モデル作成処理においてステップS21の処理が実行される際に表示されてもよい。
ここで、上記した図7に示す新規モデル作成処理においてはステップS23において抽出された有意なタグがステップS24において表示されるものとして説明したが、新規モデルが自動的に作成される場合には、ステップS24の処理が実行される代わりに、ステップS23において抽出された有意なタグの中からステップS25の処理において用いられるタグが自動的に選択されるものとする。この場合、例えばステップS23において抽出された有意なタグの全てが選択されてもよいし、当該有意なタグのうち精度の高い予め定められた数のタグが選択されてもよい。
以下、自動的に選択されたタグを用いてステップS24〜S29の処理が実行される。本実施形態において、音声認識装置10は、上記したようにユーザにタグを選択させることなく自動的に新規モデルを作成するように動作しても構わない。
なお、自動的に新規モデルを作成する場合であっても、ステップS29の処理が実行される前に図12に示す確認画面表示処理が実行されることによって、確認画面が表示されても構わない。
確認画面表示処理が実行された場合、音声認識装置10の表示画面は、上記した図14に示す対象データセット登録画面400から例えば図15に示す確認画面500に遷移する。
図15に示すように、確認画面500には、上記したように自動的に選択されたタグ501が表示されるとともに、図13に示す確認画面300と同様に評価用モデルに対する新規モデルの認識精度が表示される。
また、確認画面500には、確認画面300に設けられているボタン302に相当するボタン502が設けられている。ユーザは、このボタン502を押下することによって、自動的に作成された新規モデルをデータベース19に登録することができる。
上記したように本実施形態においては、対象データセット(第2データセット)を取得し、データベース19に格納されている拡張用モデル(第1認識モデル)の各々を用いて当該対象データセットに含まれる音声データ(第2認識対象データ)に対する音声認識処理を実行する。また、本実施形態においては、音声認識処理結果及び対象データセットに含まれるテキスト(第2正解データ)に基づいて音声認識処理に用いられた拡張用モデルに対応づけてデータベース19に格納されているタグの中から有意なタグを抽出し、当該抽出されたタグに対応づけて格納手段に格納されているデータセット(第1データセット)を拡張データセットとして取得する。本実施形態においては、対象データセット及び拡張データセットに基づいて新規モデル(第2認識モデル)を作成する。
本実施形態においては、このような構成により、例えば音声データが収集された条件(収録条件及び話者条件)が判明しておらず、かつ、データ量が十分ではない対象データセットから新規モデルを作成するような場合であっても、認識精度の高い音声認識モデルを作成するための十分なデータ量を確保することができるため、認識精度の高い新規モデルを作成することが可能となる。
すなわち、本実施形態においては、上記したように作成された新規モデルを用いて音声データをテキストに変換することによって、精度の高い音声認識を実現することが可能となる。
なお、上記したように作成された新規モデルは拡張用モデルとしても利用可能であり、例えばユーザが明示的にデータを増加させることなく、新たに作成される音声認識モデル(新規モデル)の認識精度を向上させることが可能となる。
また、本実施形態においては、拡張用モデルを用いた対象データセットに含まれる音声データに対する認識処理結果及び当該対象データセットに含まれるテキストを比較することによって当該拡張用モデルの認識精度を算出し、当該算出された拡張用モデルの認識精度(タグの精度)を用いてt検定を行うことによって、当該拡張用モデルに対応づけてデータベース19に格納されているタグの中から認識精度が有意に高いタグを抽出する。本実施形態においては、このような構成により、対象データセットに含まれる音声データが収集された条件(収録条件及び話者条件)を表すと想定されるタグを抽出して対象データセットを拡張する(つまり、拡張データセットを取得する)ことにより、認識精度の高い新規モデルを作成することが可能となる。
また、本実施形態においては、抽出されたタグが表示され、当該表示されたタグのうちユーザによって指定されたタグに対応づけてデータベース19に格納されているデータセットを拡張データセットとして取得する構成により、ユーザの意図する拡張データセットを用いて新規モデルを作成することが可能となる。
また、本実施形態においては、抽出されたタグに関連するタグを更に表示することによって、よりユーザの意図する拡張データセットを用いることが可能となる。
また、本実施形態においては、作成された新規モデルを用いて対象データセットに含まれる音声データに対する音声認識処理を実行し、当該音声認識処理結果及び対象データセットに含まれるテキストを比較することによって新規モデルの認識精度を算出し、当該算出された新規モデルの認識精度を表示する。本実施形態においては、このような構成により、ユーザは新規モデルの認識精度を確認した上で当該新規モデルの登録の可否を判断(指示)することが可能となる。
ここでは、新規モデルの認識精度が表示されるものとして説明したが、例えば対象データセットに基づいて作成された評価用モデルの認識精度を算出し、新規モデルの認識精度と当該評価用モデルの認識精度とを比較可能な態様で表示するような構成であってもよい。このような構成によれば、ユーザは、上記した拡張データセットを用いて新規モデルが作成されることによる認識精度の向上を容易に把握することが可能となる。
また、本実施形態においては、対象データセット及び拡張データセットのデータ量が十分でないと判定された場合に当該対象データセットに基づいて追加データセット(第3データセット)を生成し、当該追加データセットを更に用いて新規モデルを作成する。なお、この追加デーセットは、対象データセットに含まれるテキストから抽出されたキーワードに基づいて取得された関連テキスト(第3テキスト)から生成された音声データ(第3音声データ)及び当該関連テキストを含む。
本実施形態においては、このような構成により、対象データセット及び拡張データセットのデータ量が認識精度の高い音声認識モデルの作成に十分でない場合であっても、データセットを更に追加することによって、認識精度の高い新規モデルを作成することが可能となる。
なお、本実施形態においては対象データセットから音声認識モデル(新規モデル)を作成する場合について説明したが、本実施形態は、音響モデルを作成する場合に適用されても構わない。この場合、本実施形態において説明したデータセットを例えば音声データ及び当該音声データから出力(抽出)されるべき音素を含むデータセットとし、本実施形態において説明した音声認識モデルを音響モデルとすることで、本実施形態と同様に、精度の高い音響モデルを作成することができる。
更に、本実施形態は、言語モデルを作成する場合に適用されても構わない。この場合、本実施形態において説明したデータセットを例えば音素及び当該音素から変換されるべきテキストを含むデータセットとし、本実施形態において説明した音声認識モデルを言語モデルとすることで、本実施形態と同様に、精度の高い言語モデルを作成することができる。
また、本実施形態は、音声認識に関するモデル(音声認識モデル、音響モデル及び言語モデル)以外にも例えば画像及び対話シナリオ等に関する他の認識モデルを作成する場合に適用されても構わない。
すなわち、本実施形態は、例えば認識対象データを認識して当該認識結果を出力するために用いられる認識モデルを作成するものであれば適用可能である。
なお、本実施形態においては音声認識装置10が1つの装置であるものとして説明したが、本実施形態に係る音声認識装置10は、例えば図16に示すようにユーザによって使用される端末装置10a及び当該端末装置10aと通信可能に接続されるサーバ装置10b等から構成される音声認識システムとして実現されても構わない。なお、図16に示す音声認識システムにおいて、端末装置10a及びサーバ装置10bは例えばインターネット等のネットワーク10cを介して接続される。
この場合、本実施形態において説明した図1に示す各部11〜19の各々は、端末装置10a及びサーバ装置10bに分散するように備えられてもよい。
具体的には、例えば、取得部13及び表示処理部18が端末装置10aに備えられ、他の第1モデル作成部11、関連タグ作成部12、認識処理部14、抽出部15、第2モデル作成部16、評価部17及びデータベース19がサーバ装置10bに備えられる構成とすることができる。
この場合、端末装置10aにおいて入力(取得)された対象データセットが当該端末装置10aからサーバ装置10bに送信され、当該サーバ装置10bにおいては、本実施形態において説明したように対象データセットから新規モデルが作成される。なお、上記したタグ表示画面及び確認画面等は、端末装置10aに表示されればよい。
また、例えば、取得部13、認識処理部14、抽出部15、第2モデル作成部16、評価部17及び表示処理部18が端末装置10aに備えられ、第1モデル作成部11、関連タグ作成部12及びデータベース19がサーバ装置10bに備えられる構成としてもよい。これによれば、上記した新規モデル作成処理については端末装置10aにおいて実行することができ、当該新規モデル作成処理以外の処理(例えば、拡張用モデル登録処理及び関連タグ作成処理等)についてはサーバ装置10bで実行するようにすることができる。
更に、例えば、各部11〜18が端末装置10aに備えられ、データベース19のみがサーバ装置10bに備えられるようにしてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
10…音声認識装置、10a…端末装置、10b…サーバ装置、10c…ネットワーク、11…第1モデル作成部、12…関連タグ作成部、13…取得部、14…認識処理部、15…抽出部、16…第2モデル作成部(モデル作成手段)、17…評価部、18…表示処理部、19…データベース(格納手段)、101…CPU、102…システムコントローラ、103…主メモリ、104…BIOS−ROM、105…不揮発性メモリ、106…ディスプレイ、107…通信デバイス、108…エンベデッドコントローラ。

Claims (15)

  1. 予め定められた条件で収集された第1認識対象データ及び当該第1認識対象データから認識されるべき第1正解データを含む第1データセットに基づいて作成された第1認識モデル、当該第1データセット及び当該条件を表すタグを、当該第1認識モデル毎に対応づけて格納する格納手段と、
    第2認識対象データ及び当該第2認識対象データから認識されるべき第2正解データを含む第2データセットを取得する取得手段と、
    前記格納手段に格納されている第1認識モデルの各々を用いて前記第2データセットに含まれる第2認識対象データに対する認識処理を実行する認識処理手段と、
    前記認識処理結果及び前記第2データセットに含まれる第2正解データに基づいて、前記認識処理に用いられた第1認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出する抽出手段と、
    前記取得された第2データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第1データセットに基づいて第2認識モデルを作成するモデル作成手段と
    を具備する認識装置。
  2. 前記第1データセットに含まれる第1認識対象データは、第1音声データを含み、
    前記第1データセットに含まれる第1正解データは、前記第1音声データから書き起こされた第1テキストを含み、
    前記第2データセットに含まれる第2認識対象データは、第2音声データを含み、
    前記第2データセットに含まれる第2正解データは、前記第2音声データから書き起こされた第2テキストを含み、
    前記認識処理は、音声データから音声を認識し、当該音声をテキストに変換する処理を含む
    請求項1記載の認識装置。
  3. 第3音声データを入力する入力手段を更に具備し、
    前記認識処理手段は、前記作成された第2認識モデルを用いて前記第3音声データを第3テキストに変換する
    請求項2記載の認識装置。
  4. 前記抽出手段は、前記第1認識モデルを用いた前記第2音声データに対する認識処理結果及び前記第2テキストを比較することによって前記第1認識モデルの認識精度を算出し、前記算出された第1認識モデルの認識精度を用いて統計量の算出を行い、当該第1認識モデルに対応づけて前記格納手段に格納されているタグの中から当該認識精度が有意に高いタグを抽出する請求項2記載の認識装置。
  5. 前記抽出されたタグを表示する表示処理手段を更に具備し、
    前記モデル作成手段は、前記取得された第2データセット及び前記表示されたタグのうちユーザによって指定されたタグに対応づけて前記格納手段に格納されている第1データセットに基づいて第2認識モデルを作成する
    請求項2記載の認識装置。
  6. 前記表示処理手段は、前記抽出されたタグに関連するタグを更に表示する請求項5記載の認識装置。
  7. 算出手段及び表示処理手段を更に具備し、
    前記認識処理手段は、前記作成された第2認識モデルを用いて前記第2データセットに含まれる第2音声データに対する認識処理を実行し、
    前記算出手段は、前記作成された第2認識モデルを用いた前記第2音声データに対する認識処理結果及び前記第2テキストを比較することによって前記第2認識モデルの認識精度を算出し、
    前記表示処理手段は、前記算出された第2認識モデルの認識精度を表示する
    請求項2記載の認識装置。
  8. 前記モデル作成手段は、前記第2データセットに基づいて第3認識モデルを作成し、
    前記認識処理手段は、前記作成された第3認識モデルを用いて前記第2データセットに含まれる第2音声データに対する認識処理を実行し、
    前記算出手段は、前記作成された第3認識モデルを用いた前記第2音声データに対する認識処理結果及び前記第2データセットに含まれる第2テキストを比較することによって前記第3認識モデルの認識精度を算出し、
    前記表示処理手段は、前記第2認識モデルの認識精度及び前記第3認識モデルの認識精度を表示する
    請求項7記載の認識装置。
  9. 前記取得された第2データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第1データセットのデータ量が十分であるか否かを判定する判定手段と、
    前記第2データセット及び前記第1データセットのデータ量が十分でないと判定された場合、前記第2データセットに基づいて第3データセットを生成する生成手段と
    を更に具備し、
    前記モデル作成手段は、前記取得された第2データセット、前記抽出されたタグに対応づけて前記格納手段に格納されている第1データセット及び前記生成された第3データセットに基づいて第2認識モデルを作成する
    請求項2記載の認識装置。
  10. 前記生成手段は、前記第2データセットに含まれる第2テキストから抽出されたキーワードに基づいて取得された第3テキストから第3音声データを生成することによって、当該第3音声データ及び第3テキストを含む第3データセットを生成する請求項9記載の認識装置。
  11. 端末装置と当該端末装置と通信可能に接続されるサーバ装置とを備える認識システムにおいて、
    予め定められた条件で収集された第1認識対象データ及び当該第1認識対象データから認識されるべき第1正解データを含む第1データセットに基づいて作成された第1認識モデル、当該第1データセット及び当該条件を表すタグを、当該第1認識モデル毎に対応づけて格納する格納手段と、
    第2認識対象データ及び当該第2認識対象データから認識されるべき第2正解データを含む第2データセットを取得する取得手段と、
    前記格納手段に格納されている第1認識モデルの各々を用いて前記第2データセットに含まれる第2認識対象データに対する認識処理を実行する認識処理手段と、
    前記認識処理結果及び前記第2データセットに含まれる第2正解データに基づいて、前記認識処理に用いられた第1認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出する抽出手段と、
    前記取得された第2データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第1データセットに基づいて第2認識モデルを作成するモデル作成手段と
    を具備する認識システム。
  12. 予め定められた条件で収集された第1認識対象データ及び当該第1認識対象データから認識されるべき第1正解データを含む第1データセットに基づいて作成された第1認識モデル、当該第1データセット及び当該条件を表すタグを、当該第1認識モデル毎に対応づけて格納する格納手段を備えるサーバ装置と通信可能に接続される端末装置において、
    取得手段及び表示処理手段を具備し、
    前記取得手段は、第2認識対象データ及び当該第2認識対象データから認識される第2正解データを含む第2データセットを取得し、
    前記サーバ装置は、
    前記格納手段に格納されている第1認識モデルの各々を用いて前記第2データセットに含まれる第2認識対象データに対する認識処理を実行する認識処理手段と、
    前記認識処理結果及び前記第2データセットに含まれる第2正解データに基づいて、前記認識処理に用いられた第1認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出する抽出手段と、
    前記取得された第2データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第1データセットに基づいて第2認識モデルを作成するモデル作成手段と
    を含み、
    前記表示処理手段は、前記作成された第2認識モデルの登録をユーザに指示させるための画面を表示する
    端末装置。
  13. 端末装置と通信可能に接続されるサーバ装置において、
    予め定められた条件で収集された第1認識対象データ及び当該第1認識対象データから認識されるべき第1正解データを含む第1データセットに基づいて作成された第1認識モデル、当該第1データセット及び当該条件を表すタグを、当該第1認識モデル毎に対応づけて格納する格納手段と、
    第2認識対象データ及び当該第2認識対象データから認識される第2正解データを含む第2データセットを前記端末装置から取得する取得手段と、
    前記格納手段に格納されている第1認識モデルの各々を用いて前記第2データセットに含まれる第2認識対象データに対する認識処理を実行する認識処理手段と、
    前記認識処理結果及び前記第2データセットに含まれる第2正解データに基づいて、前記認識処理に用いられた第1認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出する抽出手段と、
    前記取得された第2データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第1データセットに基づいて第2認識モデルを作成するモデル作成手段と、
    前記作成された第2認識モデルの登録をユーザに指示させるための画面を前記端末装置に表示する表示処理手段と
    を具備するサーバ装置。
  14. 予め定められた条件で収集された第1認識対象データ及び当該第1認識対象データから認識されるべき第1正解データを含む第1データセットに基づいて作成された第1認識モデル、当該第1データセット及び当該条件を表すタグを、当該第1認識モデル毎に対応づけて格納する格納手段を備える認識装置が実行する方法であって、
    第2認識対象データ及び当該第2認識対象データから認識されるべき第2正解データを含む第2データセットを取得するステップと、
    前記格納手段に格納されている第1認識モデルの各々を用いて前記第2データセットに含まれる第2認識対象データに対する認識処理を実行するステップと、
    前記認識処理結果及び前記第2データセットに含まれる第2正解データに基づいて、前記認識処理に用いられた第1認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出するステップと、
    前記取得された第2データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第1データセットに基づいて第2認識モデルを作成するステップと
    を具備する方法。
  15. 予め定められた条件で収集された第1認識対象データ及び当該第1認識対象データから認識されるべき第1正解データを含む第1データセットに基づいて作成された第1認識モデル、当該第1データセット及び当該条件を表すタグを、当該第1認識モデル毎に対応づけて格納する格納手段を備える認識装置のコンピュータによって実行されるプログラムであって、
    前記コンピュータに、
    第2認識対象データ及び当該第2認識対象データから認識されるべき第2正解データを含む第2データセットを取得するステップと、
    前記格納手段に格納されている第1認識モデルの各々を用いて前記第2データセットに含まれる第2認識対象データに対する認識処理を実行するステップと、
    前記認識処理結果及び前記第2データセットに含まれる第2正解データに基づいて、前記認識処理に用いられた第1認識モデルに対応づけて前記格納手段に格納されているタグの中から有意なタグを抽出するステップと、
    前記取得された第2データセット及び前記抽出されたタグに対応づけて前記格納手段に格納されている第1データセットに基づいて第2認識モデルを作成するステップと
    を実行させるためのプログラム。
JP2018109442A 2018-06-07 2018-06-07 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム Active JP6910987B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018109442A JP6910987B2 (ja) 2018-06-07 2018-06-07 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム
US16/429,911 US11600262B2 (en) 2018-06-07 2019-06-03 Recognition device, method and storage medium
CN201910490584.8A CN110580905B (zh) 2018-06-07 2019-06-06 识别装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018109442A JP6910987B2 (ja) 2018-06-07 2018-06-07 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019211689A JP2019211689A (ja) 2019-12-12
JP6910987B2 true JP6910987B2 (ja) 2021-07-28

Family

ID=68764244

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018109442A Active JP6910987B2 (ja) 2018-06-07 2018-06-07 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US11600262B2 (ja)
JP (1) JP6910987B2 (ja)
CN (1) CN110580905B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112614484B (zh) * 2020-11-23 2022-05-20 北京百度网讯科技有限公司 特征信息挖掘方法、装置及电子设备

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689416B1 (en) * 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition
US8055503B2 (en) * 2002-10-18 2011-11-08 Siemens Enterprise Communications, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
EP1564721A1 (en) * 2002-11-21 2005-08-17 Matsushita Electric Industrial Co., Ltd. Standard model creating device and standard model creating method
WO2007097176A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US8014591B2 (en) * 2006-09-13 2011-09-06 Aurilab, Llc Robust pattern recognition system and method using socratic agents
JP5530729B2 (ja) * 2009-01-23 2014-06-25 本田技研工業株式会社 音声理解装置
US10224036B2 (en) * 2010-10-05 2019-03-05 Infraware, Inc. Automated identification of verbal records using boosted classifiers to improve a textual transcript
JP5916054B2 (ja) * 2011-06-22 2016-05-11 クラリオン株式会社 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
EP2747077A4 (en) * 2011-08-19 2015-05-20 Asahi Chemical Ind VOICE RECOGNITION SYSTEM, RECOGNITION DICTIONARY LOGIC SYSTEM, AND AUDIO MODEL IDENTIFIER SERIES GENERATION DEVICE
JP2013064951A (ja) * 2011-09-20 2013-04-11 Toyota Motor Corp 音響モデル適応装置、その適応方法及びプログラム
US8793136B2 (en) * 2012-02-17 2014-07-29 Lg Electronics Inc. Method and apparatus for smart voice recognition
US20130346066A1 (en) * 2012-06-20 2013-12-26 Microsoft Corporation Joint Decoding of Words and Tags for Conversational Understanding
US9697827B1 (en) * 2012-12-11 2017-07-04 Amazon Technologies, Inc. Error reduction in speech processing
US9495955B1 (en) * 2013-01-02 2016-11-15 Amazon Technologies, Inc. Acoustic model training
US9514741B2 (en) * 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition acoustic model training under data retention restrictions
US9514740B2 (en) * 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition language model training under data retention restrictions
JP6216560B2 (ja) 2013-07-25 2017-10-18 株式会社Nttドコモ 通信端末、プログラム
JP6284462B2 (ja) * 2014-09-22 2018-02-28 株式会社日立製作所 音声認識方法、及び音声認識装置
JP6320963B2 (ja) 2015-03-25 2018-05-09 日本電信電話株式会社 音声認識システム、クライアント装置、音声認識方法、プログラム
US10255907B2 (en) * 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US9786270B2 (en) * 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
CN107578769B (zh) * 2016-07-04 2021-03-23 科大讯飞股份有限公司 语音数据标注方法和装置
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
KR102384641B1 (ko) * 2017-02-20 2022-04-08 엘지전자 주식회사 다국어 처리를 수행하는 인공 지능 시스템의 제어 방법
US10354642B2 (en) * 2017-03-03 2019-07-16 Microsoft Technology Licensing, Llc Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition
US10706843B1 (en) * 2017-03-09 2020-07-07 Amazon Technologies, Inc. Contact resolution for communications systems
US10497370B2 (en) * 2017-08-18 2019-12-03 2236008 Ontario Inc. Recognition module affinity
KR102428148B1 (ko) * 2017-08-31 2022-08-02 삼성전자주식회사 가전 기기의 음성 인식을 위한 시스템과 서버, 방법
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition
US10699697B2 (en) * 2018-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems

Also Published As

Publication number Publication date
CN110580905B (zh) 2023-05-23
US11600262B2 (en) 2023-03-07
CN110580905A (zh) 2019-12-17
US20190378496A1 (en) 2019-12-12
JP2019211689A (ja) 2019-12-12

Similar Documents

Publication Publication Date Title
JP6429945B2 (ja) 音声データを処理するための方法及び装置
CN107610709B (zh) 一种训练声纹识别模型的方法及系统
KR102494139B1 (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
US8983836B2 (en) Captioning using socially derived acoustic profiles
US20200135213A1 (en) Electronic device and control method thereof
US9196253B2 (en) Information processing apparatus for associating speaker identification information to speech data
US11763690B2 (en) Electronic apparatus and controlling method thereof
JP2018159788A (ja) 情報処理装置、方法及びプログラム
CN109947971A (zh) 图像检索方法、装置、电子设备及存储介质
KR20190024148A (ko) 음성 인식 장치 및 음성 인식 방법
CN113327620A (zh) 声纹识别的方法和装置
US20140040298A1 (en) Apparatus and method for starting up software
JP6910987B2 (ja) 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
CN111326142A (zh) 基于语音转文本的文本信息提取方法、系统和电子设备
JP3840221B2 (ja) 音声認識装置及び方法
CN108255917A (zh) 图像管理方法、设备及电子设备
CN114267324A (zh) 语音生成方法、装置、设备和存储介质
JP2014232145A (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
KR102187528B1 (ko) 도메인 기반의 음성 인식 모델의 최적화가 가능한 음성 인식 장치 및 그 동작 방법
JP2020140674A (ja) 回答選択装置及びプログラム
KR102422844B1 (ko) 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법
JP7055529B1 (ja) 意味判定プログラム、及び意味判定システム
JP2019166299A (ja) コンテンツ改変装置、コンテンツ改変方法及びプログラム
CN114822492B (zh) 语音合成方法及装置、电子设备、计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210707

R150 Certificate of patent or registration of utility model

Ref document number: 6910987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150