JP7416078B2 - 音声認識装置、音声認識方法、およびプログラム - Google Patents

音声認識装置、音声認識方法、およびプログラム Download PDF

Info

Publication number
JP7416078B2
JP7416078B2 JP2021548767A JP2021548767A JP7416078B2 JP 7416078 B2 JP7416078 B2 JP 7416078B2 JP 2021548767 A JP2021548767 A JP 2021548767A JP 2021548767 A JP2021548767 A JP 2021548767A JP 7416078 B2 JP7416078 B2 JP 7416078B2
Authority
JP
Japan
Prior art keywords
voice
user
text information
recognition
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021548767A
Other languages
English (en)
Other versions
JPWO2021059968A1 (ja
JPWO2021059968A5 (ja
Inventor
秀治 古明地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021059968A1 publication Critical patent/JPWO2021059968A1/ja
Publication of JPWO2021059968A5 publication Critical patent/JPWO2021059968A5/ja
Application granted granted Critical
Publication of JP7416078B2 publication Critical patent/JP7416078B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、音声認識装置、音声認識方法、およびプログラムに関する。
音声から字幕を制作する装置の一例が特許文献1に記載されている。特許文献1の装置は、音声認識部が対象音声または対象音声を復唱した音声を音声認識してテキストに変換し、テキスト分割・結合部が音声認識後のテキストを分割処理して字幕テキストを生成する。
また、特許文献2には、携帯電話機、マイクから入力された音声情報を、音声/テキスト変換部を用いてテキスト情報に変換してテキスト送信部を用いて送信し、さらに、テキスト受信部が受信したテキスト情報を、テキスト/音声変換部を用いて音声情報に変換してスピーカから出力することが記載されている。
特開2017-40806号公報 特開2007-114582号公報
音声を復唱する場合、復唱される音声の特徴には個人差が生じ得る。このため、アノテータにより復唱された音声を認識する場合、認識精度にバラツキが生じる可能性がある。このため、音声の書き起こしにおいて音声認識精度が十分に向上しない可能性がある。
本発明は上記事情に鑑みてなされたものであり、その目的とするところは、音声の書き起こしにおいて音声認識精度を向上する技術を提供することにある。
本発明の各側面では、上述した課題を解決するために、それぞれ以下の構成を採用する。
第一の側面は、音声認認識置に関する。
第一の側面に係る音声認識装置は、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、を有し、
前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する。
第二の側面は、少なくとも1つのコンピュータにより実行される音声認識方法に関する。
第二の側面に係る音声認識方法は、
音声認識装置が、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、ことを含む。
なお、本発明の他の側面としては、上記第二の側面の方法を少なくとも1つのコンピュータに実行させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。
このコンピュータプログラムは、コンピュータにより実行されたとき、コンピュータに、音声認識装置上で、その音声認識方法を実施させるコンピュータプログラムコードを含む。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障のない範囲で変更することができる。
さらに、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
上記各側面によれば、音声の書き起こしにおいて音声認識精度を向上する技術を提供することができる。
本発明の実施の形態に係る音声認識システムの構成例を概念的に示すブロック図である。 本発明の実施の形態に係る音声認識装置の論理的な構成例を示す機能ブロック図である。 図2に示す音声認識装置を実現するコンピュータのハードウェア構成を例示するブロック図である。 本実施形態の音声認識装置の動作の一例を示すフローチャートである。 本実施形態の音声認識装置における情報の関係を説明するための図である。 本実施形態の学習データのデータ構造の一例を示す図である。 本実施形態の音声認識装置の動作の一例を示すフローチャートである。 本実施形態の音声認識装置における情報の関係を説明するための図である。 本実施形態の音声認識装置の他の動作例を示すフローチャートである。 本実施形態の音声認識装置のさらなる他の動作例を示すフローチャートである。 本実施形態の学習データのデータ構造の一例を示す図である。 本実施形態の音声認識装置の動作例を示すフローチャートである。 本実施形態の学習データのデータ構造の例を示す図である。 本実施形態の音声認識装置の機能的な構成例を示す機能ブロック図である。 本実施形態の音声認識装置の動作例を示すフローチャートである。 本実施形態の音声認識装置の機能的な構成例を示す機能ブロック図である。 本実施形態の音声認識装置の動作例を示すフローチャートである。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。以下の各図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
実施形態において「取得」とは、自装置が他の装置や記憶媒体に格納されているデータまたは情報を取りに行くこと(能動的な取得)、および、自装置に他の装置から出力されるデータまたは情報を入力すること(受動的な取得)の少なくとも一方を含む。能動的な取得の例は、他の装置にリクエストまたは問い合わせしてその返信を受信すること、及び、他の装置や記憶媒体にアクセスして読み出すこと等がある。また、受動的な取得の例は、配信(または、送信、プッシュ通知等)される情報を受信すること等がある。さらに、「取得」とは、受信したデータまたは情報の中から選択して取得すること、または、配信されたデータまたは情報を選択して受信することであってもよい。
(第1の実施の形態)
<システム概要>
図1は、本発明の実施の形態に係る音声認識システム1の構成例を概念的に示すブロック図である。本実施形態の音声認識システム1は、音声をテキストに書き起こすためのシステムである。音声認識システム1は、音声認識装置100と、マイクロフォン4などの音声入力部と、スピーカ6などの音声出力部と、を備えている。スピーカ6は、出力音声がマイクロフォン4に入力されないように、ユーザUが装着するヘッドホンなどであることが好ましいが、これに限定されない。音声認識システム1では、スピーカ6から出力された音声認識対象のオリジナルの音声(以下、認識対象音声データ10とも呼ぶ)をユーザUが聴き取り、ユーザUが復唱した発話音声20をマイクロフォン4から入力して音声認識装置100が音声認識処理してテキスト情報(以下、テキストデータ30とも呼ぶ)を生成する。
音声認識装置100は、音声認識エンジン200を有している。音声認識エンジン200は、各種のモデル、例えば言語モデル210と、音響モデル220と、単語辞書230と、を有している。音声認識装置100は、音声認識エンジン200を用いて認識対象音声データ10をユーザUが復唱した発話音声20を認識し、認識結果としてテキストデータ30を出力する。本実施形態において、音声認識エンジン200で用いられる各モデルは話者毎に設けられている。
オリジナルの認識対象音声データ10は、発話した人物によって発音、速度、音量などにバラツキがあったり、人毎に癖があったり、録音環境(周囲の環境、録音機材、録音データの種類など)も様々なため音質が音声認識に適用できる水準を満たさない可能性があったりする。そのため、認識精度が低下したり、誤認識が発生したりする。そこで、アノテータと呼ばれるユーザUはスピーカ6から出力されたオリジナルの認識対象音声データ10を聞くことで、聞いた認識対象音声データ10に含まれる発話内容を復唱する。音声認識装置100は、当該ユーザUが復唱した発話音声20を一定の条件で認識する。ユーザUは、発話速度や発声などを音声認識に適した基準になるように復唱(発話)するのが好ましい。しかし、復唱時の音声には個人差が生じやすく認識精度にもばらつきが生じる。そこで、本実施形態の音声認識装置100は、アノテータの発話音声の特徴や癖を学習する。これにより、音声認識装置100による認識精度は高くなる。
<機能構成例>
図2は、本発明の実施の形態に係る音声認識装置100の論理的な構成例を示す機能ブロック図である。
音声認識装置100は、音声再生部102と、音声認識部104と、テキスト情報生成部106と、記憶処理部108と、を備えている。
音声再生部102は、所定の区間毎に区切られた音声認識のオリジナルの対象音声(以下、区間音声12(図5参照)とも呼ぶ)を、所定の区間毎にユーザUに向けて再生する。
音声認識部104は、区間音声12毎に、ユーザUが当該区間音声12を復唱した発話音声20を認識する。この認識において、音声認識部104は、ユーザU別のモデル、例えばユーザU別の言語モデル210、音響モデル220、及び単語辞書230を用いる。これらユーザU別の各モデルは、例えば記憶装置110に記憶されている。
テキスト情報生成部106は、音声認識部104が認識した当該発話音声20のテキスト情報(テキストデータ30)を生成する。
記憶処理部108は、ユーザU別の識別情報(図中、ユーザIDと示す)と、発話音声20および当該発話音声20に対応する認識結果と、を関連付けて学習データ240(図6)として記憶装置110に記憶させる。
<ハードウェア構成例>
図3は、図2に示す音声認識装置100を実現するコンピュータ1000のハードウェア構成を例示するブロック図である。コンピュータ1000は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、およびネットワークインタフェース1060を有する。
バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、およびネットワークインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
プロセッサ1020は、CPU(Central Processing Unit) やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス1040はコンピュータ1000の各機能を実現するプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。また、ストレージデバイス1040は音声認識エンジン200の各モデルも記憶している。
プログラムモジュールは、記録媒体に記録されてもよい。プログラムモジュールを記録する記録媒体は、非一時的な有形のコンピュータ1000が使用可能な媒体を含み、その媒体に、コンピュータ1000(プロセッサ1020)が読み取り可能なプログラムコードが埋め込まれてよい。
入出力インタフェース1050は、コンピュータ1000と各種入出力機器とを接続するためのインタフェースである。
ネットワークインタフェース1060は、コンピュータ1000を通信ネットワークに接続するためのインタフェースである。この通信ネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1060が通信ネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。
そして、コンピュータ1000は、入出力インタフェース1050またはネットワークインタフェース1060を介して、必要な機器(例えば、マイクロフォン4、およびスピーカ6)に接続する。
音声認識装置100を実現するコンピュータ1000は、例えば、パーソナルコンピュータ、スマートフォン、タブレット端末などである。あるいは、音声認識装置100を実現するコンピュータ1000は、専用の端末装置であってもよい。例えば、音声認識装置100は、コンピュータ1000に、当該音声認識装置100を実現するためのアプリケーションプログラムをインストールして起動することで実現される。
他の例では、コンピュータ1000は、ウェブサーバであり、ユーザはパーソナルコンピュータ、スマートフォン、タブレット端末などのユーザ端末でブラウザを起動し、インターネットなどのネットワークを介して音声認識装置100のサービスを提供するウェブページにアクセスすることで、音声認識装置100の機能を利用できてもよい。
さらなる他の例では、コンピュータ1000は、音声認識装置100のサービスを提供するSaaS(Software as a Service)などシステムのサーバ装置であってもよい。ユーザはパーソナルコンピュータ、スマートフォン、タブレット端末などのユーザ端末からインターネットなどのネットワークを介してサーバ装置にアクセスし、サーバ装置上で動作するプログラムにより音声認識装置100が実現されてもよい。
<動作例>
図4は、本実施形態の音声認識装置100の動作の一例を示すフローチャートである。図5は、本実施形態の音声認識装置100における情報の関係を説明するための図である。
まず、音声再生部102は、所定の区間毎に区切られた音声認識のオリジナルの対象音声を再生する(ステップS101)。具体的には、音声再生部102は、認識対象音声データ10を所定の区間で区切ってスピーカ6を介して出力する。図5のSa1、Sa2、Sa3が各区間音声12である。
所定の区間とは、例えば、認識対象の音声に含まれる文、文節、および単語の少なくともいずれか一つを含む区間である。各区間には複数の文、文節、および単語が含まれてもよい。各区間に含まれる文、文節および単語の数は一定でなくてもよい。各音声区間の間は、所定の時間間隔tsが空いている。所定の時間間隔tsは一定であってもよいし、一定でなくてもよい。音声再生部102は、文、文節、および単語のいずれか一つを含む区間毎に認識対象音声データ10を区切って区間音声12を再生する。各区間音声12の間は、無音としてもよいし、所定の報知音を出力してもよい。
音声認識部104は、言語モデル210、音響モデル220、および単語辞書230を含む音声認識エンジン200を用いて区間音声12を認識する。上記したように、音声認識装置100は、音声認識エンジン200で用いられる各モデル(例えば言語モデル210、音響モデル220、および単語辞書230)をユーザU別に記憶している。各モデルは、対応するユーザUの音声とその認識結果を学習させることにより生成されている。このため、各モデルには対応するユーザUの音声の特徴や癖が反映されている。モデルの学習については後述する実施形態で説明する。
各モデルは、ユーザUを識別するユーザIDに関連付けておく。音声認識部104は、音声認識処理に先立ち、ユーザUのユーザIDを取得し、取得したユーザIDに対応する音声認識エンジン200を読み出して準備しておく。ユーザIDの取得方法は以下に例示される。なお、ユーザIDの代わりに声紋などの生体情報が用いられてもよい。
(1)音声認識装置100のアプリケーションを起動したとき、操作画面によりユーザUにユーザIDを入力させる。
(2)音声認識装置100のサービスを提供するウェブページまたはSaaSのサーバにアクセスするときに、システムにログインするための画面によりユーザUにユーザ認証のためにユーザIDとパスワードを入力させる。
(3)音声認識装置100を起動した携帯端末の識別情報(例えば、個体識別情報(UID:User Identifier)、IMEI(International Mobile Equipment Identity)等)をユーザIDとして取得する。
(4)音声認識装置100のアプリケーション起動後、または、ウェブページまたはサーバにアクセス後に、予め登録されている利用者をリスト表示してユーザUに選択させる。利用者に予め関連付けられているユーザIDを取得する。
そして、音声認識部104は、ユーザUが復唱した発話音声20を認識する(ステップS103)。音声認識部104には、マイクロフォン4を介してユーザUの発話音声20が入力される。ユーザUは音声再生部102により再生された区間音声12を聞いて、当該音声を復唱する。ユーザUは、区間音声12を聞く毎に復唱する。図5のSb1、Sb2、Sb3が各発話音声20である。
音声認識部104は、ユーザUが復唱した各発話音声20の間の無音区間ssを検出することにより、入力される各発話音声20の区切りを検出する。音声認識部104は、検出した各発話音声20をそれぞれ認識し、認識結果22をテキスト情報生成部106に受け渡す。図5のT1、T2、T3が各認識結果22である。
そして、テキスト情報生成部106は、発話音声20のテキスト情報(テキストデータ30)を生成する(ステップS105)。テキスト情報生成部106は、各区間音声12に対応する発話音声20の認識結果22を音声認識部104から順次取得し、これらを繋げて一連の発話音声20に対応するテキストデータ30を生成する。
音声認識部104から取得する認識結果22は、尤度などの情報を含んでもよい。テキスト情報生成部106は、言語モデル210および単語辞書230を用いて、各区間音声12の発話音声20に対応する認識結果22を繋げて文章を作成し、テキストデータ30を生成する。例えば、テキストデータ30は、生成された文章が記載されたテキスト形式のファイルである。
そして、記憶処理部108は、ユーザU別に発話音声20と認識結果22とを関連付けて学習データ240として記憶装置110に記憶させる(ステップS107)。
図6は、学習データ240のデータ構造の一例を示す図である。学習データ240は、ユーザUの識別情報(ユーザID)と、発話音声20と、認識結果22と、を関連付けて記憶する。
ユーザU毎の学習データ240を用いてユーザU毎の音声認識エンジン200を機械学習させることで、ユーザUの発話特徴にあわせることができる。
本実施形態によれば、音声認識部104は、ユーザU毎の発話特徴を学習した音声認識エンジン200を用いて音声認識を行うことができるので、認識精度を向上できる。
(第2の実施の形態)
本実施形態の音声認識装置100は、上記実施形態とは、ユーザUの復唱が音声再生部102による音声再生に追いつかなくなった場合など、ユーザUの復唱の状態に応じた処理を行う構成を有する点以外は上記実施形態と同じである。本実施形態の音声認識装置100は、図2の音声認識装置100と同じ構成を有するので、図2を用いて説明する。
<機能構成例>
音声再生部102は、音声認識部104が一定の時間内にユーザが復唱した発話音声20を認識しない場合、区間音声12の再生を中断し、その後、再生を中断した時点より前の時点の区間から区間音声12の再生を再開する。
さらに、音声再生部102は、予め区切られた区間音声12が再生される区間とは異なる区間において、ユーザUが復唱した発話音声20を認識しない場合に、区間音声12の再生を中断しない。
ここで、予め区切られた区間音声12が再生される区間とは異なる区間とは、例えば、認識対象音声データ10を区切って再生される複数の区間音声12の各々の間の無再生区間である。上記したように、無再生区間の間隔は、時間間隔tsである。
さらに、音声再生部102は、ある区間の対象音声(区間音声12)の再生速度を、当該区間より前の区間に対してユーザUが復唱した発話音声20を入力したときの音声入力速度に応じて、変化させる。
再生速度の制御方法は以下に例示されるが、これらに限定されない。例えば、音声再生部102は、発話音声20の入力速度が所定の速度より遅ければ、再生速度を所定の速度より遅くし、発話音声20の入力速度が所定の速度より早ければ、再生速度を所定の速度より早くする。あるいは、音声再生部102は、発話音声20の入力速度と同じ速度で認識対象のオリジナルの音声(区間音声12)を再生してもよい。
<動作例>
図7は、本実施形態の音声認識装置100の動作の一例を示すフローチャートである。図8は、本実施形態の音声認識装置100における情報の関係を説明するための図である。
図7のフローチャートは、例えば、図5のステップS101において音声再生部102が認識対象音声データ10の各区間音声12を出力する度に動作する。
まず、音声再生部102は、音声認識部104が一定の時間内にユーザが復唱した発話音声20を認識したか否かを判定する(ステップS111)。この判定方法は以下に例示される。
(1)音声認識部104は、ユーザUの発話音声20を認識する度(発話音声20を検出したとき、または、認識結果22を生成したとき)に、音声再生部102に認識したことを通知する。音声再生部102は、音声認識部104からの通知の時間間隔を計測し、一定の時間Tx以内か否かを判定する。
(2)音声認識部104は、ユーザUの発話音声20を認識する度に、音声再生部102に認識したことを通知する。音声再生部102は、区間音声12を再生した時点(再生開始または再生終了)から一定の時間Tx内に当該通知を取得した場合、認識したと判定し、一定の時間Tx内に当該通知を取得しない場合、認識しないと判定する。
(3)音声認識部104は、前回ユーザUが復唱した発話音声20を認識した時点から一定の時間Tx内に次の発話音声20を認識できなかった場合に、音声再生部102にその旨を通知する。ここで、認識した時点とは、例えば、発話音声20の入力を検出した時点、または、発話音声20の認識結果22が生成された時点のいずれかである。
(4)音声再生部102は、音声認識部104に区間音声12を再生した時点(再生開始または再生終了)から一定時間経過後に、発話音声20を認識できたか否かを問い合わせる。
(5)音声再生部102は、音声認識部104に区間音声12を再生した時点(再生開始または再生終了)から一定の時間Tx内に、マイクロフォン4からユーザUの発話音声20の入力があったか否かを検出する。音声再生部102は、発話音声20の入力があった場合は認識したと判定し、入力がなかった場合は認識しないと判定する。
そして、音声再生部102は、音声認識部104が一定の時間Tx内にユーザが復唱した発話音声20を認識しない場合(ステップS111のYES)、区間音声12の再生を中断する(ステップS113)。例えば、図8の例では、音声再生部102がSa1の区間音声12を再生開始した時点から一定の時間Tx内の時間t1に音声認識部104がT1の認識結果22を生成している。このため、音声再生部102は、次の区間のSa2の区間音声12を再生する。
しかし、図8の例では、Sa2の区間音声12を再生開始した時点から一定の時間Txが経過しても、ユーザUが復唱できず、よって、音声認識部104から認識結果22が得られていない。よって、音声再生部102は、Sa3の区間音声12の再生を中断する。
そして、音声再生部102は、再生を中断した時点より前の時点から区間音声12の再生を再開する(ステップS115)。図8の例では、音声再生部102は、Sa3の区間音声12の再生を中断後に、一つ前のSa2の区間音声12を再度再生する。すると、ユーザUは当該Sa2の区間音声12を復唱する。そして、音声認識部104は、Sb2の発話音声20を認識することができる。
図9は、本実施形態の音声認識装置100の他の動作例を示すフローチャートである。
図9のフローチャートは、図7のフローチャートのステップS111とステップS113の間にステップS121を含む。
音声再生部102は、ユーザUが復唱した発話音声20を認識しない場合に(ステップS111のYES)、予め区切られた区間音声12が再生される区間とは異なる区間(無再生区間)において(ステップS121のYES)、ステップS113とステップS115をバイパスして、区間音声12の再生を中断しない。
音声再生部102は、ユーザUが復唱した発話音声20を認識しない場合に(ステップS111のYES)、予め区切られた区間音声12が再生される区間とは異なる区間(無再生区間)でない場合(ステップS121のNO)、ステップS113に進み、区間音声12の再生を中断する。
また、他の例として、音声再生部102は、ステップS111において、再生した区間音声12の間の無再生区間の時間を計測して、一定の時間Txに無再生区間の時間間隔tsを加えて判定してもよい。
図10は、本実施形態の音声認識装置100のさらなる他の動作例を示すフローチャートである。図10のフローチャートは、常時、定期的、または要求されたときなどに動作する。
まず、音声再生部102は、マイクロフォン4に入力される発話音声20の入力速度を計測する(ステップS131)。入力速度は、例えば、単位時間内の単語数、文字数、および音素数の少なくともいずれか一つである。
そして、音声再生部102は、発話音声20の入力速度に合わせて再生速度を調整する(ステップS133)。再生速度も、入力速度と同様に、単位時間内の単語数、文字数、および音素数の少なくともいずれか一つである。そして、音声再生部102は、再生速度を発話音声20の入力速度以下に調整して区間音声12を再生する。
本実施形態によれば、上記実施形態と同様な効果を奏するとともに、さらに、音声再生部102は、音声認識状態や発話音声20の入力速度に応じて区間音声12の再生を制御できるので、ユーザUの復唱が追いつかなくなった場合にも、作業を停滞させずにスムーズに復帰させることができる。さらに、本実施形態によれば、ユーザUの復唱の速度に再生速度を合わせることができるので、ユーザUの発話の速度が速かったり遅かったりした場合にも、適切に区間音声12の再生を調整できる。これにより、ユーザUの復唱が追いつかなくなったり、時間を持てあましたりすることなく、快適に作業を続けることができる。
(第3の実施の形態)
本実施形態の音声認識装置100は、ユーザUの発話音声20の認識結果を機械学習する構成を有する点以外は、上記実施形態のいずれかと同じである。本実施形態の音声認識装置100については、図2を用いて説明する。
<機能構成例>
記憶処理部108は、音声再生部102が所定の区間の区間音声12を再生した後に、ユーザUが復唱した発話音声20に、当該所定の区間の区間音声12を関連付けて学習データ240として記憶させる。
図11は、本実施形態の学習データ240のデータ構造の一例を示す図である。図11の学習データ240は、図6の学習データ240に加え、さらに、区間音声12を関連付けて記憶している。
このようにして生成された学習データ240は、ユーザU別の音声認識エンジン200の機械学習に使用される。
本実施形態によれば、上記実施形態と同様な効果を奏するとともに、さらに、このようにして生成されるユーザU別の学習データ240を用いて、ユーザU別の音声認識エンジン200の各モデルを機械学習させることで、ユーザUに特化した音声認識エンジン200を構築することができる。
(第4の実施の形態)
本実施形態の音声認識装置100は、第1言語と第1言語を第2言語に翻訳して復唱して音声情報をテキストに書き起こす構成を有する点以外は上記実施形態のいずれかと同じである。
<機能構成例>
音声再生部102は、第1言語(例えば、英語)の音声認識対象音声を再生した後、音声認識部104は、復唱した第1言語の前記発話音声と当該第1言語を第2言語(例えば、日本語)に翻訳して発した発話音声20をそれぞれ音声認識する。
テキスト情報生成部106は、音声認識部104による認識結果に基づいて、第1言語と第2言語の発話音声20のテキストデータ30をそれぞれ生成する。
記憶処理部108は、ユーザUが復唱した第1言語および第2言語の発話音声20と、音声再生部102により再生された第1言語の区間音声12とを関連付けて記憶させる。
本実施形態では、第1言語は英語、第2言語は日本語として説明する。他の例では、第1言語は方言(例えば、大阪弁)、第2言語は標準語、またはその逆で、第1言語が標準語、第2言語は方言であってもよい。さらなる他の例では、第1言語は敬語、第2言語は敬語以外、またはその逆であってもよい。
<動作例>
図12は、本実施形態の音声認識装置100の動作例を示すフローチャートである。まず、音声再生部102は、第1言語の音声認識の対象音声を所定の区間で区切って(区間音声12を)再生する(ステップS141)。そして、ユーザUはまず第1言語で復唱すると、音声認識部104は、ユーザUが第1言語で復唱した発話音声20を認識する(ステップS143)。さらに、ユーザUは第2言語で復唱すると、音声認識部104は、ユーザUが第2言語で復唱した発話音声20を認識する(ステップS145)。
テキスト情報生成部106は、ステップS143とステップS145で認識された発話音声20の認識結果22に基づいて、テキストデータ30をそれぞれ生成する(ステップS147)。
記憶処理部108は、ユーザIDと、第1言語の発話音声20と、第2言語の発話音声20と、音声再生部102により再生された第1言語の対象音声とを関連付けて、翻訳エンジンの学習データ340として記憶装置110に記憶する(ステップS149)。
図13は、学習データ340のデータ構造の例を示す図である。図13(a)の例では、学習データ340は、音声再生部102により再生された区間音声12と、同じ区間の第1言語の発話音声20と第2言語の発話音声20とを関連付けて記憶する。また、図13(b)の例のように、学習データ340は、各言語の認識結果も関連付けて記憶してもよい。
さらに、記憶処理部108は、ステップS147において生成された第1言語のテキストデータ30と第2言語のテキストデータ30とを関連付けて記憶装置110に記憶させる(ステップS151)。
本実施形態によれば、第1言語を聞いたユーザUが、第1言語で復唱した音声情報と、第1言語を第2言語で翻訳して発話した音声情報とを認識し、テキスト情報を生成するとともに、さらに、第1言語を復唱した発話音声20と、第2言語の発話音声20と、音声再生部102により再生された区間音声12をそれぞれ関連付けて記憶させることができる。これにより、上記実施形態と同様な効果を奏するとともに、さらに、例えば、翻訳エンジンの学習データ340として、これらの情報を用いることができる。
(第5の実施の形態)
本実施形態の音声認識装置100は、未知語を登録する構成を有する点以外は、上記実施形態のいずれかと同じである。
<機能構成例>
図14は、本実施形態の音声認識装置100の機能的な構成例を示す機能ブロック図である。
音声認識装置100は、上記実施形態の音声認識装置100の構成に加え、さらに、登録部120を有する。
登録部120は、ユーザUが発話した言葉の中で、音声認識部104により認識できなかった言葉を未知語として辞書に登録する。
<動作例>
図15は、本実施形態の音声認識装置100の動作例を示すフローチャートである。このフローチャートは、例えば、図4のステップS103で音声認識部104がユーザUの発話音声20を認識できなかったとき(ステップS151のYES)に開始する。そして、登録部120は、ユーザUが発話した言葉の中で、音声認識部104により認識できなかった言葉を未知語として辞書に登録する(ステップS153)。
ここで、辞書とは、本実施形態のユーザU毎の言語モデル210、音響モデル220および単語辞書230等の各モデルと、ユーザに特化されない汎用の各モデルの両方を含む。各辞書のデータ構造は、音声情報を、単語、n組の単語列、音素列など異なる単位の少なくともいずれか一つで登録することができる。よって、音声認識部104により認識できなかった言葉の音声情報は、各単位にそれぞれ分解されてそれぞれ未知語として辞書登録されてよい。
そして、未知語として登録された言葉は、後述する実施形態と同様な編集機能によりユーザUにより単語登録できてよい。あるいは、機械学習などにより学習されてもよい。
本実施形態によれば、音声認識部104により認識できなかった言葉を未知語として辞書に登録することができるので、上記実施形態と同様な効果を奏するとともに、さらに、音声認識エンジン200を育てていくことができ、認識精度を向上させることができる。
(第6の実施の形態)
本実施形態の音声認識装置100は、認識対象音声データ10を編集する構成を有する点以外は、上記実施形態のいずれかと同じである。
<機能構成例>
図16は、本実施形態の音声認識装置100の機能的な構成例を示す機能ブロック図である。
本実施形態の音声認識装置100は、上記実施形態の音声認識装置100の構成に加え、さらに、表示処理部130を有する。表示処理部130は、テキスト情報生成部106に生成されたテキストデータ30を表示装置132に表示させる。
テキストデータ30は、テキスト情報生成部106によりテキストデータ30に認識結果22が追加されている度に更新されて表示されてもよいし、認識対象音声データ10の全ての再生、あるいは、所定の範囲までの再生が終了した時点までの再生音声に対応する範囲のテキストデータ30を、再生終了時以降に表示させてもよい。ユーザUの操作指示を受け付けて表示させてもよい。
さらに、テキスト情報生成部106は、表示装置132に表示されたテキストデータ30の編集操作を受け付け、編集操作に従い、テキストデータ30を更新する。キーボード、マウス、タッチパネル、操作スイッチ等の入力装置134を用いてユーザUは編集操作を行うことができる。
さらに、記憶処理部108は、更新されたテキストデータ30に対応する学習データ240の認識結果を更新してもよい。
表示装置132は、音声認識装置100に含まれてもよいし、外部の装置であってもよい。表示装置132は、例えば、液晶ディスプレイ、プラズマディスプレイ、CRT(Cathode Ray Tube)ディスプレイ、有機EL(ElectroLuminescence)ディスプレイ等である。
<動作例>
図17は、本実施形態の音声認識装置100の動作例を示すフローチャートである。
表示処理部130は、テキスト情報生成部106により生成されたテキストデータ30を表示装置132に表示させる(ステップS161)。そして、編集操作を受け付ける操作メニューによりユーザUの編集操作を受け付ける(ステップS163)。
テキストデータ30を表示する画面では、例えば、音声認識部104による認識結果22の尤度が基準値以下の言葉について、他の部分と識別可能なように、例えば、強調表示させて、ユーザUに確認を促してもよい。ユーザUは強調表示された言葉が正しいかを確認し、必要に応じて編集することができる。
そして、テキスト情報生成部106は、ステップS163で受け付けた編集操作に従い、テキストデータ30を更新する(ステップS165)。
この構成によれば、ユーザUは音声を書き起こしされたテキストデータ30を確認して必要に応じて訂正することができるので、書き起こしされたテキストデータ30の正確さが向上する。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
例えば、表示処理部130により表示されるテキストデータ30の表示画面において、テキストの範囲の指定をユーザUの操作により受け付けると、音声再生部102は、受け付けた部分のテキストに関連付けられている区間音声12を再生してもよい。
この構成によれば、テキストデータ30の元となる区間音声12を再生させることで、テキストデータ30の正否を確認することができ、さらに、編集操作により訂正を行うこともできる。
さらに、音声認識装置100は、学習データのユーザIDが示すユーザに対応する、ユーザ別に存在する音声認識エンジン200のうちの一つを特定する特定部(不図示)をさらに備えてもよい。特定部により、学習データのユーザIDに対応する音声認識エンジン200が特定され、当該学習データを特定された音声認識エンジン200に学習させることができる。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、本発明において利用者に関する情報を取得、利用する場合は、これを適法に行うものとする。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1. 所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、
を備え、
前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、音声認識装置。
2. 前記音声再生手段は、前記音声認識手段が一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、
1.に記載の音声認識装置。
3. 前記音声再生手段は、予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
2.に記載の音声認識装置。
4. 前記音声再生手段は、ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
1.から3.のいずれか一つに記載の音声認識装置。
5. 前記記憶手段は、前記音声再生手段が前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる、
1.から4.のいずれか一つに記載の音声認識装置。
6. 前記音声再生手段は、第1言語の音声認識対象音声を再生した後、
前記音声認識手段は、復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
前記テキスト情報生成手段は、前記音声認識手段による認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
前記記憶手段は、前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、前記音声再生手段により再生された前記第1言語の対象音声とを関連付けて記憶させる、
1.から5.のいずれか一つに記載の音声認識装置。
7. 前記ユーザが発話した言葉の中で、前記音声認識手段により認識できなかった言葉を未知語として辞書に登録する登録手段をさらに備える、
1.から6.のいずれか一つに記載の音声認識装置。
8. 前記テキスト情報を表示する表示手段をさらに備える、
1.から7.のいずれか一つに記載の音声認識装置。
9. 前記テキスト情報生成手段は、前記表示手段に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する、
8.に記載の音声認識装置。
10. 音声認識装置が、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する、音声認識方法。
11. 前記音声認識装置が、
一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、
10.に記載の音声認識方法。
12. 前記音声認識装置が、
予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
11.に記載の音声認識方法。
13. 前記音声認識装置が、
ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
10.から12.のいずれか一つに記載の音声認識方法。
14. 前記音声認識装置が、
前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる、
10.から13.のいずれか一つに記載の音声認識方法。
15. 前記音声認識装置が、
第1言語の音声認識対象音声を再生した後、
復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、再生された前記第1言語の対象音声とを関連付けて記憶させる、
10.から14.のいずれか一つに記載の音声認識方法。
16. 前記音声認識装置が、さらに、
前記ユーザが発話した言葉の中で、認識できなかった言葉を未知語として辞書に登録する、
10.から15.のいずれか一つに記載の音声認識方法。
17. 前記音声認識装置が、さらに、
前記テキスト情報を表示部に表示する、
10.から16.のいずれか一つに記載の音声認識方法。
18. 前記音声認識装置が、
前記表示部に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する、
17.に記載の音声認識方法。
19. コンピュータに、
所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する手順、
前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する手順、
前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成する手順、
前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる手順、を実行させるためのプログラム。
20. 一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断する手順、
その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する手順、をコンピュータに実行させるための、
19.に記載のプログラム。
21. 予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断する手順を実行しない手順、をコンピュータに実行させるための、
20.に記載のプログラム。
22. ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる手順、をコンピュータに実行させるための、
19.から21.のいずれか一つに記載のプログラム。
23. 前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて記憶させる手順、をコンピュータに実行させるための、
19.から22.のいずれか一つに記載のプログラム。
24. 第1言語の音声認識対象音声を再生した後、
復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識する手順、
認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成する手順、
前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、再生された前記第1言語の対象音声とを関連付けて記憶させる手順、をコンピュータに実行させるための、
19.から23.のいずれか一つに記載のプログラム。
25. 前記ユーザが発話した言葉の中で、認識できなかった言葉を未知語として辞書に登録する手順、をさらにコンピュータに実行させるための、
19.から24.のいずれか一つに記載のプログラム。
26. 前記テキスト情報を表示部に表示する手順、をさらにコンピュータに実行させるための、
19.から25.のいずれか一つに記載のプログラム。
27. 前記表示部に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新する手順、をコンピュータに実行させるための、
26.に記載のプログラム。
この出願は、2019年9月27日に出願された日本出願特願2019-176484号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 音声認識システム
3 通信ネットワーク
4 マイクロフォン
6 スピーカ
10 認識対象音声データ
12 区間音声
20 発話音声
22 認識結果
30 テキストデータ
100 音声認識装置
102 音声再生部
104 音声認識部
106 テキスト情報生成部
108 記憶処理部
110 記憶装置
120 登録部
130 表示処理部
132 表示装置
134 入力装置
200 音声認識エンジン
210 言語モデル
220 音響モデル
230 単語辞書
240 学習データ
340 学習データ
1000 コンピュータ
1010 バス
1020 プロセッサ
1030 メモリ
1040 ストレージデバイス
1050 入出力インタフェース
1060 ネットワークインタフェース

Claims (8)

  1. 所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する音声再生手段と、
    前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識する音声認識手段と、
    前記音声認識手段の認識結果に基づいて、当該発話音声のテキスト情報を生成するテキスト情報生成手段と、
    前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる記憶手段と、
    を備え、
    前記音声認識手段は、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識し、
    前記テキスト情報を表示する表示手段をさらに備え、
    前記表示手段は、前記テキスト情報のうち、前記音声認識手段による前記認識結果の尤度が基準値以下の言葉について、他の部分と識別可能に表示し、
    前記テキスト情報生成手段は、前記表示手段に表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新し、
    前記音声再生手段は、前記音声認識手段が一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、音声認識装置。
  2. 前記音声再生手段は、予め区切られた前記対象音声が再生される区間とは異なる区間において、前記ユーザが復唱した前記発話音声を認識しない場合に、前記対象音声の再生を中断しない、
    請求項に記載の音声認識装置。
  3. 前記音声再生手段は、ある区間の前記対象音声の再生速度を、当該区間より前の区間に対して前記ユーザが復唱した前記発話音声を入力したときの音声入力速度に応じて、変化させる、
    請求項1または2に記載の音声認識装置。
  4. 前記記憶手段は、前記音声再生手段が前記所定の区間の対象音声を再生した後に、前記ユーザが復唱した前記発話音声に、当該所定の区間の対象音声を関連付けて前記学習データとして記憶させる、
    請求項1からのいずれか一項に記載の音声認識装置。
  5. 前記音声再生手段が、第1言語の音声認識対象音声を再生した後、
    前記音声認識手段は、復唱した前記第1言語の前記発話音声と当該第1言語を第2言語に翻訳して発した前記発話音声をそれぞれ音声認識し、
    前記テキスト情報生成手段は、前記音声認識手段による認識結果に基づき、前記第1言語と前記第2言語の前記発話音声の前記テキスト情報をそれぞれ生成し、
    前記記憶手段は、前記ユーザが復唱した前記第1言語の前記発話音声と、前記第2言語の前記発話音声と、前記音声再生手段により再生された前記第1言語の対象音声とを関連付けて翻訳エンジンの学習データとして記憶させる、
    請求項1からのいずれか一項に記載の音声認識装置。
  6. 前記ユーザが発話した言葉の中で、前記音声認識手段により認識できなかった言葉を未知語として辞書に登録する登録手段をさらに備え、
    前記登録手段は、
    前記テキスト情報のうち、前記未知語を、前記表示手段により、識別可能に表示させ、
    前記テキスト情報生成手段により、前記編集操作を受け付け、
    前記編集操作された前記言葉を前記辞書に単語登録する、
    請求項1からのいずれか一項に記載の音声認識装置。
  7. 音声認識装置が、
    所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生し、
    前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を認識し、
    前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成し、
    前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させ、
    前記発話音声を認識する際、前記ユーザ別の学習データにより学習された認識エンジンを用いて認識し、
    前記テキスト情報を表示し、
    前記テキスト情報を表示する際、前記テキスト情報のうち、前記認識結果の尤度が基準値以下の言葉について、他の部分と識別可能に表示し、
    前記テキスト情報を生成する際、表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新し、
    前記発話音声を認識する際に一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、する、音声認識方法。
  8. コンピュータに、
    所定の区間毎に区切られた音声認識の対象音声を、前記所定の区間毎に再生する手順、
    前記対象音声毎に、ユーザが当該対象音声を復唱した発話音声を前記ユーザ別の学習データにより学習された認識エンジンを用いて認識する手順、
    前記発話音声の認識結果に基づいて、当該発話音声のテキスト情報を生成する手順、
    前記ユーザ別の識別情報と、前記発話音声および当該発話音声に対応する前記認識結果と、を関連付けて学習データとして記憶させる手順、
    前記テキスト情報を表示する手順、を実行させ、
    前記表示する手順において、前記テキスト情報のうち、前記認識結果の尤度が基準値以下の言葉について、他の部分と識別可能に表示し、
    前記テキスト情報を生成する手順において、前記表示する手順において表示された前記テキスト情報の編集操作を受け付け、前記編集操作に従い、前記テキスト情報を更新し、
    前記発話音声を認識する手順において一定の時間内に前記ユーザが復唱した前記発話音声を認識しない場合、前記対象音声を再生する手順において、前記対象音声の再生を中断し、その後、前記再生を中断した時点より前の時点の区間から前記対象音声の再生を再開する、プログラム。
JP2021548767A 2019-09-27 2020-09-08 音声認識装置、音声認識方法、およびプログラム Active JP7416078B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019176484 2019-09-27
JP2019176484 2019-09-27
PCT/JP2020/033974 WO2021059968A1 (ja) 2019-09-27 2020-09-08 音声認識装置、音声認識方法、およびプログラム

Publications (3)

Publication Number Publication Date
JPWO2021059968A1 JPWO2021059968A1 (ja) 2021-04-01
JPWO2021059968A5 JPWO2021059968A5 (ja) 2022-06-01
JP7416078B2 true JP7416078B2 (ja) 2024-01-17

Family

ID=75166092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021548767A Active JP7416078B2 (ja) 2019-09-27 2020-09-08 音声認識装置、音声認識方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220335951A1 (ja)
JP (1) JP7416078B2 (ja)
WO (1) WO2021059968A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7288530B1 (ja) 2022-03-09 2023-06-07 陸 荒川 システムおよびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004170765A (ja) 2002-11-21 2004-06-17 Sony Corp 音声処理装置および方法、記録媒体並びにプログラム
JP2003345379A6 (ja) 2002-03-20 2004-09-02 科学技術振興事業団 音声映像変換装置及び方法、音声映像変換プログラム
JP2010197669A (ja) 2009-02-25 2010-09-09 Kyocera Corp 携帯端末、編集誘導プログラムおよび編集装置
JP2013182261A (ja) 2012-03-05 2013-09-12 Nippon Hoso Kyokai <Nhk> 適応化装置、音声認識装置、およびそのプログラム
JP2014240940A (ja) 2013-06-12 2014-12-25 株式会社東芝 書き起こし支援装置、方法、及びプログラム
JP2015184564A (ja) 2014-03-25 2015-10-22 株式会社アドバンスト・メディア 音声書起支援システム、サーバ、装置、方法及びプログラム
WO2017068826A1 (ja) 2015-10-23 2017-04-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017161726A (ja) 2016-03-09 2017-09-14 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345379A (ja) * 2002-03-20 2003-12-03 Japan Science & Technology Corp 音声映像変換装置及び方法、音声映像変換プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345379A6 (ja) 2002-03-20 2004-09-02 科学技術振興事業団 音声映像変換装置及び方法、音声映像変換プログラム
JP2004170765A (ja) 2002-11-21 2004-06-17 Sony Corp 音声処理装置および方法、記録媒体並びにプログラム
JP2010197669A (ja) 2009-02-25 2010-09-09 Kyocera Corp 携帯端末、編集誘導プログラムおよび編集装置
JP2013182261A (ja) 2012-03-05 2013-09-12 Nippon Hoso Kyokai <Nhk> 適応化装置、音声認識装置、およびそのプログラム
JP2014240940A (ja) 2013-06-12 2014-12-25 株式会社東芝 書き起こし支援装置、方法、及びプログラム
JP2015184564A (ja) 2014-03-25 2015-10-22 株式会社アドバンスト・メディア 音声書起支援システム、サーバ、装置、方法及びプログラム
WO2017068826A1 (ja) 2015-10-23 2017-04-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017161726A (ja) 2016-03-09 2017-09-14 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JPWO2021059968A1 (ja) 2021-04-01
WO2021059968A1 (ja) 2021-04-01
US20220335951A1 (en) 2022-10-20

Similar Documents

Publication Publication Date Title
KR102100389B1 (ko) 개인화된 엔티티 발음 학습
US8738375B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
US9984679B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
US20210366462A1 (en) Emotion classification information-based text-to-speech (tts) method and apparatus
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
EP3736807A1 (en) Apparatus for media entity pronunciation using deep learning
WO2014136534A1 (ja) 理解支援システム、理解支援サーバ、理解支援方法、及びコンピュータ読み取り可能な記録媒体
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
US11587547B2 (en) Electronic apparatus and method for controlling thereof
JP2014240940A (ja) 書き起こし支援装置、方法、及びプログラム
JP5638479B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2024508033A (ja) 対話中のテキスト-音声の瞬時学習
JPWO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
JP7416078B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP4354299B2 (ja) 事例検索プログラム、事例検索方法及び事例検索装置
JP2015087544A (ja) 音声認識装置及び音声認識プログラム
JP2013069228A (ja) 情報処理装置、情報処理方法およびプログラム
JP2021009253A (ja) プログラム、情報処理装置、及び情報処理方法
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
KR20210043341A (ko) 인공지능 대화 서비스 생성 방법 및 장치
KR101501705B1 (ko) 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220324

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231218

R151 Written notification of patent or utility model registration

Ref document number: 7416078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151