JP2016024378A - 情報処理装置、その制御方法及びプログラム - Google Patents

情報処理装置、その制御方法及びプログラム Download PDF

Info

Publication number
JP2016024378A
JP2016024378A JP2014149181A JP2014149181A JP2016024378A JP 2016024378 A JP2016024378 A JP 2016024378A JP 2014149181 A JP2014149181 A JP 2014149181A JP 2014149181 A JP2014149181 A JP 2014149181A JP 2016024378 A JP2016024378 A JP 2016024378A
Authority
JP
Japan
Prior art keywords
sequence
phonemes
phoneme
predetermined
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014149181A
Other languages
English (en)
Inventor
玲二 藤川
Reiji Fujikawa
玲二 藤川
雅彦 原田
Masahiko Harada
雅彦 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2014149181A priority Critical patent/JP2016024378A/ja
Publication of JP2016024378A publication Critical patent/JP2016024378A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識を行う情報処理装置において複雑な処理の実行を可能にする。
【解決手段】音声ストリームに基づいて、音声認識部104により得られた音素の並びの中で、音素記憶部108に記憶されている第1キーワードに一致する音素の並びが存在すれば、当該音素の並びを形態素毎に分割する処理の対象から取り除き、第1キーワードに一致する音素の並びが存在した場合であって、当該音素の並び以降に第2キーワードと一致する音素の並びが存在する場合、当該音素の並びを形態素毎に分割する処理の対象から取り除いた上で、実行部109が実行する処理の内容とする。実行部108は、その処理の内容を実行する際、第2キーワード前の言葉を処理の引数とする。
【選択図】図3

Description

本発明は、情報処理装置、その制御方法及びプログラムに関し、特に、音声認識を行うものに関する。
電子計算機と人間との間のインターフェース(以下、マン・マシン・インターフェース)としては、従来さまざまなものや方式が考案されている。しかしながら、人間の操作や指令(コマンド)を計算機に入力するデバイスに限って言えば、数十年来、キーボードとマウスがデファクトスタンダードであり続けている。特に、パーソナルコンピュータと呼ばれる製品形態の世界ではそうである。このような現状に対し、音声を用いて人間の操作や指令をコンピュータに入力する技術も従来、種々のものが考案されている。
音声認識技術をコンピュータの操作に利用する技術としては、例えば、特許文献1ないし5などがある。特許文献1では、録画装置がテレビ番組録画などのコマンド実行を行うために音声認識を利用している。特許文献2では、カーナビゲーションシステムが音声認識を利用する対話型マン・マシン・インターフェースを提供している。特許文献3では、テレビ受像機などの家電装置や情報機器が音声認識を利用してユーザが通常の会話と同じ感覚で機器を操作できるようにすることを目指したマン・マシン・インターフェースを提供している。
特許文献4は、音声認識したコマンド(指令)を正しく解釈して選択したアプリケーション(例えば、電話ダイヤラ)にコマンドを実行させることについて記載がある。アプリケーションとしては、電子メールアプリケーションやテキストメッセージングアプリケーションがあることが記載されている。特許文献5には、入力された音声をメモリに格納されている音声パターンと照らし合わせて解読し、解読した所定の音声と関連づけて記憶されている機能を実行することが記載されている。
特開平04−338817号公報 特開2001−034292号公報 特開2002−041276号公報 特開2013−073240号公報 特開2008−053937号公報
しかしながら、上述のような従来技術においては、音声を認識させて単純な操作や指令を実行させることはできても、複雑な処理を実行させることができないという問題点があった。
複雑な処理を実行させるために情報を電子計算機に入力する必要がある。電子機器における無線通信などでは、信号を変調させて信号に情報を搬送させることが通常行われている。これに対して音声信号は、口や唇などの人間の調音器官により生成される音響信号である。変調させることができないので、たとえ音声認識技術を用いてコンピュータに音声の意味を認識させても、通常の通信において用いられる信号ほどには多くの情報をコンピュータに認識させることができない。
また、複雑な処理を実行させるためには電子計算機に伝えるべき情報のデータの構造がある程度複雑にならざるを得ないが、音声認識では複雑なデータ構造を正確に理解することが難しい。
例えば、人間がコンピュータを使って誰かに電子メールを出すことを考えた場合、従来であれば、キーボードを用いて用件を入力し、宛先を入力して送信するが、音声認識型コンピュータであれば、「宛先AにBという内容でメールを送信して」というような言葉をコンピュータに投げかける。この音声信号を受信したコンピュータは、この言葉に、電子メールアプリケーションを立ち上げ、新規メールを作成し、送信するというコマンドが含意されていることを理解しなければならない。と同時に、この言葉の中におけるコマンドではない「宛先A」と「内容B」というデータを正しくデータとして取り扱い、コマンドとして取り扱ってはならない。しかしながら、コマンドというメタデータも、内容や宛先といったデータも、音声信号という一つのレイヤー上の信号としてコンピュータに受信される。別々のレイヤー上の信号としてはコンピュータに入力されない。
この点に関し、従来技術は、コンピュータに入力されてくる音声のモデルが単純で、音声がそのままコマンドとして取り扱えるものが多かった(例えば、上掲の特許文献1〜5)。しかしながら、入力音声モデルが複雑化し、音声内のデータを適切に扱えるようにするためには、上記問題点を解決する必要がある。
本発明は、上記実情に鑑みてなされたものであり、音声認識を行う情報処理装置において複雑な処理の実行を可能にすることを目的とする。
上記目的を達成するために本発明は、第1の態様として、あらかじめ複数の音素と、第1の所定の音素の並びと、第2の所定の音素の並びと、を記憶する音素記憶手段と、音声ストリームから、前記音素記憶手段に記憶されている複数の音素との比較により音素を抽出し、前記音声ストリームを音素の並びにする音声認識手段と、前記音声認識手段により得られた音素の並びを形態素毎に分割する形態素分析手段と、形態素毎に分割された音素の並びに基づいて文脈を解析する文脈解析手段と、文脈が解析された音素の並びに基づいて処理を実行する実行手段と、を有し、前記形態素分析手段は、前記音声認識手段により得られた音素の並びの中で、前記音素記憶手段に記憶されている前記第1の所定の音素の並びに一致する音素の並びが存在すれば、当該音素の並びを形態素毎に分割する処理の対象から取り除き、前記第1の所定の音素の並びに一致する音素の並びが存在した場合であって、当該音素の並び以降に前記第2の所定の音素の並びと一致する音素の並びが存在する場合、当該音素の並びを形態素毎に分割する処理の対象から取り除いた上で、前記実行手段が実行する処理の内容として、前記実行手段に渡し、前記実行手段は、前記形態素分析手段から渡された前記処理の内容を、前記文脈が解析された音素の並びを引数とする指令として、実行することを特徴とする、情報処理装置を提供する。
本発明によれば、音声認識を行う情報処理装置において複雑な処理の実行を可能にすることが可能となる。
本発明による実施形態のネットワーク構成例を示す図である。 上記実施形態のハードウェア&ソフトウェア構成例を示す図である。 上記実施形態の機能ブロック図である。 上記実施形態における映像と音声の入出力の概要を示す概念図である。 上記実施形態の利用シーン例を示す概念図である。
図1に、本実施形態のネットワーク構成例を示す。図1に示すように、本実施形態においては、インターネットなどのネットワークを介して、情報処理装置100とクラウド上のサーバ200がデータ通信を行う。ネットワークの形態に限定はない。情報処理装置100は、パーソナルコンピュータ(以下、主として「PC」と呼ぶ)、スレート型PC、タブレット型PC、スマートフォン、携帯型情報端末(Personal Digital Assistance: PDA)などのパーソナルデバイスである。PCの形態として据え置き型とノートブック型を例示しているが、限定するものではない。
種々のサービスを提供するサーバであるクラウド上のサーバ200としては、例えば、短文投稿サーバ201、掲示板サーバ202、SNS(ソーシャルネットワーキングサービス)サーバ203、交流サーバ204などがある。短文投稿サーバ201とは、200文字以内などの比較的短い文章を投稿できるサービスを提供するサーバである。掲示板サーバ202は、CGI(Common Gateway Interface)などのウェブテクノロジを使って、文章を投稿できるサービスを提供するサーバである。SNSサーバ203、交流サーバ204も、文章を投稿できるが、ユーザアカウント同士がリンクで繋がり、現実の友人関係をリンクで表すことができるようになっている。サービスの種類に特に限定はないので、情報処理装置100がその他サーバ205と通信可能であってもよい。
以下では、情報処理装置100が典型的な実施の一例として、短文投稿サーバ201と通信を行う例について述べる。
図2に、本実施形態のハードウェア&ソフトウェア構成例を示す。図示の例では、情報処理装置100は、演算処理装置110、一次記憶装置111、二次記憶装置112を持つ。その他に入出力装置として、表示出力を行う表示装置113、通信装置114、音声入力装置115、音声出力装置116を持つ。
一次記憶装置111は、揮発性の記憶装置であり作業メモリとして用いる。二次記憶装置112は、不揮発性の記憶装置であり、オペレーティングシステム(以下、OS)120、TV視聴アプリケーション121、その投稿プラグイン122、対話型音声認識UIアプリケーション123、ブラウザエンジン124、投稿API125が格納されている。
これらのソフトウェアプログラムが、演算処理装置110により起動され、一次記憶装置111に展開されることによって、後述するような機能を提供する各機能ブロックを構成する。なお、各機能ブロックは、インストールされているソフトウェアプログラムではなくSaaS(Software as a Service)により提供されてもよい。図示のハードウェア&ソフトウェア構成例は発明が実施可能であることを説明するための一例である。
TV視聴アプリケーション121は、ユーザが情報処理装置100を用いてテレビを視聴するための統合アプリケーションである。テレビジョン映像は、ケーブルテレビや地上波デジタル放送の放送波や衛星を経由した放送波などによって搬送されてよく、デコードも情報処理装置100内で行ってもよいし、或いは専用の電子機器でデコードした映像信号を情報処理装置に入力させてもよい。TV視聴アプリケーション121は、このように得られたテレビジョン映像を表示装置113に表示させる。また、テレビジョン音声を音声出力装置116に出力させる。
投稿プラグイン122は、TV視聴アプリケーション121のプラグインである。TV視聴アプリケーション121が起動中に対話型音声認識UIアプリケーション123や投稿API125と連携を取る。そして、TV視聴アプリケーション121に、ネットワーク上のホストが提供するサービス(本実施形態の場合、「短文投稿サービス」)を利用する機能を付加する。
対話型音声認識UIアプリケーション123は、バックグラウンドで起動し、音声入力装置115から入力された音声信号を音声認識して、認識した音声の内容に応じた処理を行う。
ブラウザエンジン124は、HTTPプロトコルによる通信を行うソフトウェアの中核部分である。OS120の機能の一部であってもよいが、本例では別アプリケーションとして構成する例を示した。投稿API125は、短文投稿サーバ201とアプリケーションプログラム間通信を行うための小規模なプログラムである。通信にHTTPを使うため、本例ではブラウザエンジン124のプラグインとして構成する例が示してある。
図3に、本実施形態の機能ブロック図を示す。図示のように、情報処理装置100は、入力音声ストリーム取得部101、出力音声ストリーム取得部102、前処理部103、音声認識部104、形態素解析部105、文脈解析部106、音素比較部107、音素記憶部108、実行部109を有する。
入力音声ストリーム取得部101は、ハードウェアの音声入力装置115が観測した音声ストリームを取得する機能を備える。出力音声ストリーム取得部102は、TV視聴アプリケーション121から出力される音声ストリームを取得する機能を備える。
図4に、本実施形態における映像と音声の入出力の概要を示す。図示のように、音声出力装置116からは、TV視聴アプリケーション121から出力される音声ストリームがテレビ音声として出力される。逆に、音声入力装置115には、出力されたテレビ音声が壁などに反射して戻ってきた音声に加えて、テレビを視聴するユーザの歓声や音声認識させて利用するための音声などが入力される。他に、それら以外の環境音なども入力される可能性がある。
したがって、音声入力装置115が情報処理装置100に入力する音声の音声ストリームには、TV視聴アプリケーション121から出力される音声が含まれる可能性があり、このため、音声入力装置115が情報処理装置100に入力する音声に含まれる情報処理装置100に対するユーザの指令が適切に認識又は解析できないことがある。
この問題を解決するため、前処理部103は、入力音声ストリーム取得部101が取得した音声ストリーム、すなわち、音声入力装置115が情報処理装置100に入力する音声の音声ストリームから、出力音声ストリーム取得部102が取得した音声ストリームに基づいて、TV視聴アプリケーション121から出力した音声を除去する。
この前処理部103によれば、情報処理装置100はクリアな音声でユーザの指令を受け取ることができ、音声認識を行う情報処理装置において複雑な処理の実行を可能にすることができる。なお、前処理部103は、ノイズ除去なども行う。
次に、音声認識部104は、出力音声やノイズなどを除去した音声のストリームから音素を抽出して、音声ストリームを音素の並びに変換する。その際、音素記憶部108などにあらかじめ記憶されている音素と、切れ目のない音声ストリームを任意の基準で抽出した音素候補とを比較し、類似の尤度が最も高い音素を認識する。尤度が所定の閾値より低い場合は、その尾音素候補を破棄するなどの処理を行う。この音素比較は、音素比較部107が実行する。音素は、通常言語毎に行い、音素記憶部108には音声ストリームで発話されている言語が有する音素が記憶されている。
次に、形態素解析部105は、音声認識部104から出力された一連の音素の並びを形態素に分割する。この処理には、通常図示しないコーパスなどを用いる。次に、文脈解析部106は、形態素分割された音素の並びを、形態素毎の意味内容に基づいて解析する。
これら一連の処理において、形態素解析部105は、音声認識部104から出力された一連の音素の並びのうち、音素記憶部108に記憶されている所定の音素の並びに一致する尤度が所定の値より高い並びを見つけた場合、当該並びを文脈解析部106に回すべき音素の並びから取り除く。
音素記憶部108には、通常、音節やモーラ毎に音素が記憶されているが、本実施形態では例外的に、いくつかの音素の組み合わせが、音素比較の際に優先的に比較されるべき対象として記憶されている。或いは、音素比較部107は、このいくつかの音素の組み合わせを音素比較の際に優先的に比較する。
このいくつかの音素の組み合わせ、ないし、所定の音素の並びを、以下、「キーワード108a」と呼ぶ。形態素解析部105は、音声ストリームからキーワード108aに一致する一連の音声を認識すると、その部分を取り除き、実行部109に渡す。このとき実行部109は、キーワード108aが取り除かれた音声ストリームが「データ」であるとすると、形態素解析部105から渡されたキーワード108aは「メタデータ」であると認識する。
メタデータの含意するところは、さまざまであるが、キーワード108aのうち少なくとも一つは、入力された音声ストリームが情報処理装置100への処理の実行を指示する指令を含むものであることを意味するものであることが好ましい。このようなキーワード108aを「第1キーワード」と便宜的に呼ぶ。
また、キーワード108aとしてはさらに、第1キーワードが抽出されたあとに、音素比較部107から音素の並びの一致が判断された場合に限り抽出されるキーワードを有することが好ましい。このようなキーワード108aを「第2キーワード」と便宜的に呼ぶ。
本実施形態において、第2キーワードは、第1キーワードと当該第2キーワードとの間の音声、及び、別の第2キーワードと当該第2キーワードとの間の音声を、音声認識、形態素解析、文脈解析した結果得られたデータを引数として用いて情報処理装置100に出す指令であると解釈する。この解釈は、実行部109が実行する。
本実施形態における指令の具体的態様としては、指令が、第1キーワードと当該第2キーワードとの間の音声、及び、別の第2キーワードと当該第2キーワードとの間の音声を、音声認識、形態素解析、文脈解析した結果得られたデータを、短文投稿サーバ201に投稿するという指令であることが好ましい。
図5に、情報処理装置100の利用シーン例を示す。一例として、TV視聴アプリケーション121は、表示画面113a中に所定のエリアを占めるテレビ画面113bに、地上デジタル放送で放映されているテレビジョン画面を表示している。同時に、テレビジョン音声も音声出力装置116から出力している。この出力音声は、音声入力装置115から入力されても前処理部103によりキャンセルされる。
ここでユーザが第1キーワードに該当する単語と第2キーワードに該当する単語と、この両単語に挟まれた言葉(一文をなしていてもそうでなくてもよい)を発話すると、投稿プラグイン122が両単語に挟まれた言葉を短文投稿サーバ201に投稿する。TV視聴アプリケーション121が提供する投稿用GUI113cには、前記両単語に挟まれた言葉が表示される。ユーザは、キーボードやマウスなどの従来のマン・マシン・インターフェースに手を触れることなく情報処理装置100を操作可能である。
上述した本発明の実施形態によれば、音声認識を行う情報処理装置100において複雑な処理の実行を可能にするという効果がもたらされる。例えば、キーワードを、直前のデータが分岐の条件や繰り返しを抜けるための条件であることを意味するものと規定すると、分岐処理や繰り返し処理をこの情報処理装置100で実現することが可能になる。
また、キーワード108aは、情報処理装置100のユーザ自身の音声を録音したものであることが好ましい。この構成によれば、音素比較部107による音素比較の際の精度が高まるという効果がもたらされる。
また、上記実施形態では、形態素解析部105が行う処理の前の過程で、音素比較部107による音素比較に基づく所定の音素の並びがあらかじめ記憶されている音素の並びとで一致するものが抽出される。この構成によれば、メタデータに対して形態素解析等が実行されることが無く、とりわけ文脈を解析する際にメタデータがノイズとならない。すなわち、音声認識の精度が向上するという効果がある。
また、本実施形態は、所定の音素の並びが検出された条件の下で、初めて検出することが可能になる所定の音素の並びを設けている。この構成によれば、ユーザの意図しないときに情報処理装置100が指令を誤って認識する可能性が低減する。
100 情報処理装置
101 入力音声ストリーム取得部
102 出力音声ストリーム取得部
103 前処理部
104 音声認識部
105 形態素解析部
106 文脈解析部
107 音素比較部
108 音素記憶部
108a キーワード
109 実行部
121 TV視聴アプリケーション
122 投稿プラグイン
123 対話型音声認識UIアプリケーション

Claims (7)

  1. あらかじめ複数の音素と、第1の所定の音素の並びと、第2の所定の音素の並びと、を記憶する音素記憶手段と、
    音声ストリームから、前記音素記憶手段に記憶されている複数の音素との比較により音素を抽出し、前記音声ストリームを音素の並びにする音声認識手段と、
    前記音声認識手段により得られた音素の並びを形態素毎に分割する形態素分析手段と、
    形態素毎に分割された音素の並びに基づいて文脈を解析する文脈解析手段と、
    文脈が解析された音素の並びに基づいて処理を実行する実行手段と、
    を有し、
    前記形態素分析手段は、
    前記音声認識手段により得られた音素の並びの中で、前記音素記憶手段に記憶されている前記第1の所定の音素の並びに一致する音素の並びが存在すれば、当該音素の並びを形態素毎に分割する処理の対象から取り除き、
    前記第1の所定の音素の並びに一致する音素の並びが存在した場合であって、当該音素の並び以降に前記第2の所定の音素の並びと一致する音素の並びが存在する場合、当該音素の並びを形態素毎に分割する処理の対象から取り除いた上で、前記実行手段が実行する処理の内容として、前記実行手段に渡し、
    前記実行手段は、
    前記形態素分析手段から渡された前記処理の内容を、前記文脈が解析された音素の並びを引数とする指令として、実行する
    ことを特徴とする、情報処理装置。
  2. 前記実行手段は、
    前記第1の所定の音素の並びとの一致が存在した箇所と、前記第2の所定の音素の並びとの一致が存在した箇所とに挟まれた箇所の前記文脈が解析された音素の並びを前記引数とする
    ことを特徴とする、請求項1に記載の情報処理装置。
  3. 前記音素記憶手段は、前記第2の所定の音素の並びを複数記憶し、
    前記実行手段は、
    前記第2の所定の音素の並びとの一致が存在した箇所と、別の前記第2の所定の音素の並びとの一致が存在した箇所とに挟まれた箇所の前記文脈が解析された音素の並びを前記引数とする
    ことを特徴とする、請求項1又は2に記載の情報処理装置。
  4. 前記実行手段は、
    前記第1の所定の音素の並びとの一致が存在した箇所と、前記第2の所定の音素の並びとの一致が存在した箇所とに挟まれた箇所、
    又は、
    前記第2の所定の音素の並びとの一致が存在した箇所と、別の前記第2の所定の音素の並びとの一致が存在した箇所とに挟まれた箇所の、
    前記文脈が解析された音素の並びを、
    後続する前記第2の所定の音素の並びが意味する分岐の条件又は繰り返しを抜けるための条件として解釈する
    ことを特徴とする請求項3に記載の情報処理装置。
  5. 情報処理装置に入力される音声を取得する入力音声ストリーム取得手段と、
    情報処理装置が出力する音声を取得する出力音声ストリーム取得手段と、
    前記出力音声ストリーム取得手段が取得した音声に基づいて、前記入力音声ストリーム取得手段が取得した音声から、情報処理装置が出力した音声が反射して入力された音声を取り除く処理を行い、前記音声ストリームを生成する前処理手段と、
    を有する
    ことを特徴とする、請求項1から4のいずれか1項に記載の情報処理装置。
  6. 情報処理装置の制御方法であって、
    あらかじめ複数の音素と、第1の所定の音素の並びと、第2の所定の音素の並びと、を記憶する音素記憶ステップと、
    音声ストリームから、前記音素記憶ステップで記憶した複数の音素との比較により音素を抽出し、前記音声ストリームを音素の並びにする音声認識ステップと、
    前記音声認識ステップにより得られた音素の並びを形態素毎に分割する形態素分析ステップと、
    形態素毎に分割された音素の並びに基づいて文脈を解析する文脈解析ステップと、
    文脈が解析された音素の並びに基づいて処理を実行する実行ステップと、
    を有し、
    前記形態素分析ステップでは、
    前記音声認識ステップにより得られた音素の並びの中で、前記音素記憶ステップで記憶した前記第1の所定の音素の並びに一致する音素の並びが存在すれば、当該音素の並びを形態素毎に分割する処理の対象から取り除き、
    前記第1の所定の音素の並びに一致する音素の並びが存在した場合であって、当該音素の並び以降に前記第2の所定の音素の並びと一致する音素の並びが存在する場合、当該音素の並びを形態素毎に分割する処理の対象から取り除いた上で、前記実行ステップで実行する処理の内容として、前記実行ステップに渡し、
    前記実行ステップでは、
    前記形態素分析ステップから渡された前記処理の内容を、前記文脈が解析された音素の並びを引数とする指令として、実行する
    ことを特徴とする、情報処理装置の制御方法。
  7. コンピュータに、
    あらかじめ複数の音素と、第1の所定の音素の並びと、第2の所定の音素の並びと、を記憶する音素記憶処理と、
    音声ストリームから、前記音素記憶処理で記憶した複数の音素との比較により音素を抽出し、前記音声ストリームを音素の並びにする音声認識処理と、
    前記音声認識処理により得られた音素の並びを形態素毎に分割する形態素分析処理と、
    形態素毎に分割された音素の並びに基づいて文脈を解析する文脈解析処理と、
    文脈が解析された音素の並びに基づいて処理を実行する実行処理と、
    を実行させるためのプログラムであって、
    前記形態素分析処理は、
    前記音声認識処理により得られた音素の並びの中で、前記音素記憶処理で記憶した前記第1の所定の音素の並びに一致する音素の並びが存在すれば、当該音素の並びを形態素毎に分割する処理の対象から取り除き、
    前記第1の所定の音素の並びに一致する音素の並びが存在した場合であって、当該音素の並び以降に前記第2の所定の音素の並びと一致する音素の並びが存在する場合、当該音素の並びを形態素毎に分割する処理の対象から取り除いた上で、前記実行処理で実行する処理の内容として、前記実行処理に渡す
    処理となり、
    前記実行処理は、
    前記形態素分析ステップから渡された前記処理の内容を、前記文脈が解析された音素の並びを引数とする指令として、実行する
    処理となる、
    ことを特徴とする、プログラム。
JP2014149181A 2014-07-22 2014-07-22 情報処理装置、その制御方法及びプログラム Pending JP2016024378A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014149181A JP2016024378A (ja) 2014-07-22 2014-07-22 情報処理装置、その制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014149181A JP2016024378A (ja) 2014-07-22 2014-07-22 情報処理装置、その制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2016024378A true JP2016024378A (ja) 2016-02-08

Family

ID=55271152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014149181A Pending JP2016024378A (ja) 2014-07-22 2014-07-22 情報処理装置、その制御方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2016024378A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017159207A1 (ja) * 2016-03-14 2017-09-21 シャープ株式会社 処理実行装置、処理実行装置の制御方法、および制御プログラム
CN108039175A (zh) * 2018-01-29 2018-05-15 北京百度网讯科技有限公司 语音识别方法、装置及服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000227799A (ja) * 1999-02-05 2000-08-15 Brother Ind Ltd 音声認識装置、音声認識システム及び通信装置
JP2006195576A (ja) * 2005-01-11 2006-07-27 Toyota Motor Corp 車載音声認識装置
JPWO2006097975A1 (ja) * 2005-03-11 2008-08-21 岐阜サービス株式会社 音声認識プログラム
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000227799A (ja) * 1999-02-05 2000-08-15 Brother Ind Ltd 音声認識装置、音声認識システム及び通信装置
JP2006195576A (ja) * 2005-01-11 2006-07-27 Toyota Motor Corp 車載音声認識装置
JPWO2006097975A1 (ja) * 2005-03-11 2008-08-21 岐阜サービス株式会社 音声認識プログラム
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017159207A1 (ja) * 2016-03-14 2017-09-21 シャープ株式会社 処理実行装置、処理実行装置の制御方法、および制御プログラム
JPWO2017159207A1 (ja) * 2016-03-14 2018-10-11 シャープ株式会社 処理実行装置、処理実行装置の制御方法、および制御プログラム
CN108039175A (zh) * 2018-01-29 2018-05-15 北京百度网讯科技有限公司 语音识别方法、装置及服务器
JP2019133127A (ja) * 2018-01-29 2019-08-08 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識方法、装置及びサーバ
CN108039175B (zh) * 2018-01-29 2021-03-26 北京百度网讯科技有限公司 语音识别方法、装置及服务器
US11398228B2 (en) 2018-01-29 2022-07-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Voice recognition method, device and server

Similar Documents

Publication Publication Date Title
US11997344B2 (en) Translating a media asset with vocal characteristics of a speaker
US9704488B2 (en) Communicating metadata that identifies a current speaker
US9805718B2 (en) Clarifying natural language input using targeted questions
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
JP2019102063A (ja) ページ制御方法および装置
WO2016037440A1 (zh) 视频语音转换方法、装置和服务器
EP3779971A1 (en) Method for recording and outputting conversation between multiple parties using voice recognition technology, and device therefor
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN110299152A (zh) 人机对话的输出控制方法、装置、电子设备及存储介质
EP3509062B1 (en) Audio recognition device, audio recognition method, and program
US10388325B1 (en) Non-disruptive NUI command
US10062384B1 (en) Analysis of content written on a board
US10762906B2 (en) Automatically identifying speakers in real-time through media processing with dialog understanding supported by AI techniques
KR20220130739A (ko) 스피치 인식
US11900931B2 (en) Information processing apparatus and information processing method
KR20190074508A (ko) 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법
CN116508315A (zh) 多模式游戏视频摘要
CN110992958B (zh) 内容记录方法、装置、电子设备及存储介质
US20230223021A1 (en) Enhancing signature word detection in voice assistants
JP2016024378A (ja) 情報処理装置、その制御方法及びプログラム
WO2023218268A1 (en) Generation of closed captions based on various visual and non-visual elements in content
US20210327419A1 (en) Enhancing signature word detection in voice assistants
WO2021161856A1 (ja) 情報処理装置及び情報処理方法
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム
JP2016024379A (ja) 情報処理装置、その制御方法及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160726

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20170119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170321