JP2016024379A - 情報処理装置、その制御方法及びプログラム - Google Patents

情報処理装置、その制御方法及びプログラム Download PDF

Info

Publication number
JP2016024379A
JP2016024379A JP2014149191A JP2014149191A JP2016024379A JP 2016024379 A JP2016024379 A JP 2016024379A JP 2014149191 A JP2014149191 A JP 2014149191A JP 2014149191 A JP2014149191 A JP 2014149191A JP 2016024379 A JP2016024379 A JP 2016024379A
Authority
JP
Japan
Prior art keywords
phoneme
meta information
information descriptor
candidate
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014149191A
Other languages
English (en)
Inventor
玲二 藤川
Reiji Fujikawa
玲二 藤川
雅彦 原田
Masahiko Harada
雅彦 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2014149191A priority Critical patent/JP2016024379A/ja
Publication of JP2016024379A publication Critical patent/JP2016024379A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識を行う情報処理装置において複雑な処理の実行を可能にする。【解決手段】音声ストリームの中に、あらかじめ記憶された音素と一致し、その一致した音素の連続が、さらにあらかじめ記憶されためた情報記述子候補音素と一致したら、当該音素の連続をメタ情報記述子とする。メタ情報記述子は、検出の際に、他の所定のメタ情報記述子が先に検出されている場合に限り検出される。【選択図】図3

Description

本発明は、情報処理装置、その制御方法及びプログラムに関し、特に、音声認識を行うものに関する。
電子計算機と人間との間のインターフェース(以下、マン・マシン・インターフェース)としては、従来さまざまなものや方式が考案されている。しかしながら、人間の操作や指令(コマンド)を計算機に入力するデバイスに限って言えば、数十年来、キーボードとマウスがデファクトスタンダードであり続けている。特に、パーソナルコンピュータと呼ばれる製品形態の世界ではそうである。このような現状に対し、音声を用いて人間の操作や指令をコンピュータに入力する技術も従来、種々のものが考案されている。
音声認識技術をコンピュータの操作に利用する技術としては、例えば、特許文献1ないし5などがある。特許文献1では、録画装置がテレビ番組録画などのコマンド実行を行うために音声認識を利用している。特許文献2では、カーナビゲーションシステムが音声認識を利用する対話型マン・マシン・インターフェースを提供している。特許文献3では、テレビ受像機などの家電装置や情報機器が音声認識を利用してユーザが通常の会話と同じ感覚で機器を操作できるようにすることを目指したマン・マシン・インターフェースを提供している。
特許文献4は、音声認識したコマンド(指令)を正しく解釈して選択したアプリケーション(例えば、電話ダイヤラ)にコマンドを実行させることについて記載がある。アプリケーションとしては、電子メールアプリケーションやテキストメッセージングアプリケーションがあることが記載されている。特許文献5には、入力された音声をメモリに格納されている音声パターンと照らし合わせて解読し、解読した所定の音声と関連づけて記憶されている機能を実行することが記載されている。
特開平04−338817号公報 特開2001−034292号公報 特開2002−041276号公報 特開2013−073240号公報 特開2008−053937号公報
しかしながら、上述のような従来技術においては、音声を認識させて単純な操作や指令を実行させることはできても、複雑な処理を実行させることができないという問題点があった。
複雑な処理を実行させるために情報を電子計算機に入力する必要がある。電子機器における無線通信などでは、信号を変調させて信号に情報を搬送させることが通常行われている。これに対して音声信号は、口や唇などの人間の調音器官により生成される音響信号である。変調させることができないので、たとえ音声認識技術を用いてコンピュータに音声の意味を認識させても、通常の通信において用いられる信号ほどには多くの情報をコンピュータに認識させることができない。
また、複雑な処理を実行させるためには電子計算機に伝えるべき情報のデータの構造がある程度複雑にならざるを得ないが、音声認識では複雑なデータ構造を正確に理解することが難しい。
例えば、人間がコンピュータを使って誰かに電子メールを出すことを考えた場合、従来であれば、キーボードを用いて用件を入力し、宛先を入力して送信するが、音声認識型コンピュータであれば、「宛先AにBという内容でメールを送信して」というような言葉をコンピュータに投げかける。この音声信号を受信したコンピュータは、この言葉に、電子メールアプリケーションを立ち上げ、新規メールを作成し、送信するというコマンドが含意されていることを理解しなければならない。と同時に、この言葉の中におけるコマンドではない「宛先A」と「内容B」というデータを正しくデータとして取り扱い、コマンドとして取り扱ってはならない。しかしながら、コマンドというメタデータも、内容や宛先といったデータも、音声信号という一つのレイヤー上の信号としてコンピュータに受信される。別々のレイヤー上の信号としてはコンピュータに入力されない。
この点に関し、従来技術は、コンピュータに入力されてくる音声のモデルが単純で、音声がそのままコマンドとして取り扱えるものが多かった(例えば、上掲の特許文献1〜5)。しかしながら、入力音声モデルが複雑化し、音声内のデータを適切に扱えるようにするためには、上記問題点を解決する必要がある。
本発明は、上記実情に鑑みてなされたものであり、音声認識を行う情報処理装置において複雑な処理の実行を可能にすることを目的とする。
上記目的を達成するために本発明は、第1の態様として、音素と、前記音素の組み合わせからなるメタ情報記述子候補音素とを記憶する音素記憶手段と、音声ストリームから任意の区間を切り出す音声認識手段と、前記音声認識手段により切り出された前記任意の区間の音声ストリームに該当する音素候補と、前記音素記憶手段に記憶されている前記音素と、を比較して一致するか否かを判断する音素比較手段と、前記音素比較手段により一致すると判断された前記音素に付された音素のラベルを並べた音素の並びに対して、形態素解析を行う形態素解析手段と、形態素解析が行われた前記音素の並びに基づいて処理を実行する実行手段と、を有し、前記音声認識手段は、前記音素候補に一致した、連続する前記音素記憶手段に記憶されている前記音素が、前記メタ情報記述子候補音素と一致した場合、当該連続する音素を、メタ情報記述子として検出し、前記メタ情報記述子を、前記形態素解析手段が形態素解析を行う対象である前記音素の並びから取り除くとともに、前記実行手段に出力し、前記実行手段は、前記音素の並びと前記メタ情報記述子に基づいて、前記メタ情報記述子に定義された処理を、前記音素の並びを用いて実行し、前記メタ情報記述子候補音素は、複数であって、他の前記メタ情報記述子候補音素が検出された条件の下で初めて検出される前記メタ情報記述子候補音素を含むことを特徴とする、情報処理装置を提供する。
本発明によれば、音声認識を行う情報処理装置において複雑な処理の実行を可能にすることが可能となる。
本発明による実施形態のネットワーク構成例を示す図である。 上記実施形態のハードウェア&ソフトウェア構成例を示す図である。 上記実施形態における音声によるアプリケーション操作の概要を示す概念図である。 上記実施形態の機能ブロック図である。 上記実施形態における音声認識処理を説明するための概念図である。 上記実施形態における音素記憶部108の記憶内容の一部を説明するための概念図である。
図1に、本実施形態のネットワーク構成例を示す。図1に示すように、本実施形態においては、インターネットなどのネットワークを介して、情報処理装置100とクラウド上のサーバ200がデータ通信を行う。ネットワークの形態に限定はない。情報処理装置100は、パーソナルコンピュータ(以下、主として「PC」と呼ぶ)、スレート型PC、タブレット型PC、スマートフォン、携帯型情報端末(Personal Digital Assistance: PDA)などのパーソナルデバイスである。PCの形態として据え置き型とノートブック型を例示しているが、限定するものではない。
種々のサービスを提供するサーバであるクラウド上のサーバ200としては、例えば、メールサーバ201、掲示板サーバ202、SNS(ソーシャルネットワーキングサービス)サーバ203、短文投稿204などがある。短文投稿サーバ204とは、200文字以内などの比較的短い文章を投稿できるサービスを提供するサーバである。掲示板サーバ202は、CGI(Common Gateway Interface)などのウェブテクノロジを使って、文章を投稿できるサービスを提供するサーバである。SNSサーバ203も、文章を投稿できるが、ユーザアカウント同士がリンクで繋がり、現実の友人関係をリンクで表すことができるようになっている。サービスの種類に特に限定はないので、情報処理装置100がその他サーバ205と通信可能であってもよい。
以下では、情報処理装置100が典型的な実施の一例として、メールサーバ201と通信を行う例について述べる。メールサーバ201は、本実施形態では、IMAP4(Internet Message Access Protocol)に対応したサーバである。
図2に、本実施形態のハードウェア&ソフトウェア構成例を示す。図示の例では、情報処理装置100は、演算処理装置110、一次記憶装置111、二次記憶装置112を持つ。その他に入出力装置として、表示出力を行う表示装置113、通信装置114、音声入力装置115、音声出力装置116を持つ。
一次記憶装置111は、揮発性の記憶装置であり作業メモリとして用いる。二次記憶装置112は、不揮発性の記憶装置であり、オペレーティングシステム(以下、OS)120、電子メールアプリケーション121、対話型音声認識UIアプリケーション123が格納されている。
これらのソフトウェアプログラムが、演算処理装置110により起動され、一次記憶装置111に展開されることによって、後述するような機能を提供する各機能ブロックを構成する。なお、各機能ブロックは、インストールされているソフトウェアプログラムではなくSaaS(Software as a Service)により提供されてもよい。図示のハードウェア&ソフトウェア構成例は発明が実施可能であることを説明するための一例である。
電子メールアプリケーション121は、いわゆるインターネットメールを作成したり送受信したりする機能を備えるアプリケーションソフトウェアであり、POP3やIMAP4などに対応する。また、電子メールアプリケーション121は、テキスト入力を対話型音声認識UIアプリケーション123に担わせる手段を有している。
対話型音声認識UIアプリケーション123は、バックグラウンドで起動し、音声入力装置115から入力された音声信号を音声認識して、認識した音声の内容に応じた処理を行う。
図2に示したようなソフトウェアとハードウェアの協働により以下に説明するようなアプリケーション画面や機能ブロックが構成され、それぞれの機能が発揮される。
図3に、本実施形態の電子メールアプリケーション121及び対話型音声認識UIアプリケーション123により提供されるユーザインターフェースの一部であるグラフィカルインターフェース画面の一例を示す。図示の例は、いわゆる3ペイン型のGUIを示している。
図3において、表示装置113の表示画面113aには、メールボックス一覧113b、メール一覧113c、第3ペイン113d及び音声認識開始ボタン113eが示されている。メールボックス一覧113b(第1ペイン)には、電子メールアプリケーション121にユーザが登録してあるユーザのIDに対応するメールボックスの一覧が表示される。ユーザのIDは、メールサーバ201におけるユーザのIDである。
メール一覧113c(第2ペイン)は、メールボックス一覧113bで選択されているメールボックス内のメール一覧であり、その下部の第3ペイン113dには、メール一覧113cで選択されたメールの内容を表示したり、作成中のメールを表示したりすることができる。
ここで、本実施形態では、対話型音声認識UIアプリケーション123の一機能により、ユーザがメール作成時にいつでもテキスト入力を音声認識により実行できるように、音声認識開始ボタン113eが、メールボックス一覧113b上にオーバレイして表示される。これは、情報処理装置100のマン・マシン・インターフェースにおける入力手段がキーボード入力等から音声認識によるものへ切り替える手段の一例を示したものである。
ユーザが音声認識開始ボタン113eをマウスでクリックする等を行うと、音声認識により情報処理装置100にユーザが指令を出したり、文章等のデータを入力したりするための入力モードが開始される。音声認識による入力モードにおいては、対話型音声認識UIアプリケーション123により図4に示すような機能ブロックが提供され、本実施形態の特徴的な音声認識機能が提供される。
図4に、本実施形態の機能ブロック図を示す。図示のように、情報処理装置100は、入力音声ストリーム取得部101、前処理部103、音声認識部104、形態素解析部105、文脈解析部106、音素比較部107、音素記憶部108、実行部109を有する。
入力音声ストリーム取得部101は、ハードウェアの音声入力装置115が観測した音声ストリームを取得する機能を備える。前処理部103は、ノイズ除去などを行う。
音声認識部104は、ノイズなどを除去した音声のストリームから音素を抽出して、音声ストリームを音素の並びに変換する。すなわち、音声認識部104は、まず、切れ目のない音声ストリームから任意の基準で音素の候補を抽出する。次に、音素比較部107は、こうして抽出された音声候補と、音素記憶部108などにあらかじめ記憶されている音素とを比較する。音素比較部107は、比較中の音素候補との類似の尤度が最も高い音素を認識する(図5参照)。どの音素に対しても尤度が所定の閾値より低い場合は、その音素候補を破棄するなどの処理を行う。このような音素比較部107による音素の認識が繰り返されることによって、音声ストリームは音素の並びに変換される。
なお、自然言語毎に言語が有する音素は異なる。そこで、音素記憶部108には少なくとも音声ストリームで発話されている言語が有する音素が記憶されており、複数言語に対応する場合には、各言語の音素セットが記憶されている。
図5に示すように、音声認識部104は、音声ストリームから任意の区間を切り出し、音素候補とする。なお、任意区間の切り出し方としては、認識精度を向上させるため、無音区間を加えないようにすることが好ましい。音素記憶部108には、図5右側のような音素が記憶されているので、上記音素候補と比較する。音素記憶部108に記憶されている音素にはそれぞれラベルが付されている。比較の結果一致する尤度が所定の閾値より高い場合にはその音素に付されているラベルが、音素候補が持つ音価となる。音声認識部104がこのような処理を音声ストリームの流れに沿って実行していくと、時間軸に沿った形で音価のリストができる。これを本実施形態では「音素の並び」と呼ぶ。
次に、形態素解析部105は、音声認識部104から出力された一連の音素の並びを形態素に分割する。この処理には、通常図示しないコーパスなどを用いる。次に、文脈解析部106は、形態素分割された音素の並びを、形態素毎の意味内容に基づいて解析する。
ここで、本実施形態においては、音素記憶部108に、「メタ情報記述子候補音素」108aが記憶されている(図6参照)。メタ情報記述子候補音素108aは、それぞれラベルが付されている。メタ情報記述子候補音素108aは、基本的に通常記憶されている音素の組み合わせからなる。好ましくは、ユーザ自身が発声した声から生成する。メタ情報記述子候補音素108aは、複数記憶されている。
図6に示すように、各々のメタ情報記述子候補音素108aに付されたラベルも音素の並びで表現される。音声認識部104は、メタ情報記述子候補音素108aの音素の並びの中で、音素比較部107により記憶されている音素との一致が判定された複数の音素の並びと一致するものがあれば、当該音素の並びをマークする。次に、マークした音素の並びを改めて音素候補として、音素比較部107に、メタ情報記述子候補音素108aに記憶されている音素との比較を実行させる。その結果改めて一致すると判断された場合、音声認識部104は、この部分の音素の並びを、形態素解析部105に出力すべき音素の並びから取り除き、実行部109に渡す。
さらに、複数のメタ情報記述子候補音素108aの中には、他のメタ情報記述子候補音素108aが検出されていなければ、検出しない(音素比較部107が実行する比較の対象から除く)ものが含まれる。例えば、Anをメタ情報記述子候補音素108aとすると(nは自然数)、下記表のように定義されている。
An,検出の際必要とする他のAn
A1,なし
A2,A1
A3,A1
A4,A2
メタ情報記述子候補音素108aは、音声ストリームの中でユーザが情報処理装置100に対して出している指令(コマンド)など(このことをメタ情報記述子と呼ぶ)である可能性のある音素の並びである。本実施形態では、このメタ情報記述子が別のメタ情報記述子を伴わない場合、特に、前に無い場合は、メタ情報記述子ではないと考える。
そのため、メタ情報記述子の誤検知防止や、演算量増加の防止を意図して、音声ストリームに含まれる音素の並びに対して比較対象とするメタ情報記述子候補音素108a群の集合を、状況に応じて変化させる。状況とは、現在一致が認められ検出されているメタ情報記述子候補音素108aが何か、である。
例えば、上掲の表の例で言うと、現在一致が認められ検出されているメタ情報記述子候補音素108aが「なし」であると、音声ストリームに含まれる音素の並びに対して比較対象とするメタ情報記述子候補音素108a群の集合には、A1のみが含まれる。
A1が検出され、現在一致が認められ検出されているメタ情報記述子候補音素108aが「A1」であると、音声ストリームに含まれる音素の並びに対して比較対象とするメタ情報記述子候補音素108a群の集合には、A2とA3が含まれる。
このように図4の機能ブロックの矢印にしたがって入力された音声ストリームに対して処理を実行していくと、音声ストリームは、下記のような情報に変換される。
データ,メタ情報記述子,データ,メタ情報記述子,データ,・・・
この情報が実行部109に入力される。なお、「データ」は、φ(存在しない)場合もある。
図3を再び参照し、メタ情報記述子、データの具体例を確認する。図3には、ユーザの声、すなわち入力される音声ストリームとして、「確認」・・・「返信」・・・「送信」と、「作成」・・・「送信」の二つのパターンが記載されている。「返信」「作成」「送信」などがメタ情報記述子であり、それ以外の部分の各々がデータである。また、メタ情報記述子「送信」は、「作成」又は「返信」が前に来ていないと検出できないように定義されている。
実行部109は、メタ情報記述子の各々がどのような処理を情報処理装置100に対して実行させるのか、あらかじめ記憶している。例えば、メタ情報記述子「送信」は、前に存在するメタ情報記述子「作成」又は「返信」から、自身までの間のデータを引数に取り、引数を電子メールの本文としてメールサーバ201とIMAP4で通信を行うことによって電子メールの送信を行うことを意味する。実行部109は、このような個々のメタ情報記述子の定義づけにしたがって実際の処理を実行する。
上述した本発明の実施形態によれば、音声認識を行う情報処理装置100において複雑な処理の実行を可能にするという効果がもたらされる。また、ユーザは、キーボードやマウスなどの従来のマン・マシン・インターフェースに手を触れることなく情報処理装置100を操作可能である。
また、メタ情報記述子候補音素108aは、情報処理装置100のユーザ自身の音声を録音したものであることが好ましい。この構成によれば、音素比較部107による音素比較の際の精度が高まるという効果がもたらされる。
また、上記実施形態では、形態素解析部105が行う処理の前の過程で、音素比較部107による音素比較に基づく所定の音素の並びがあらかじめ記憶されている音素の並びとで一致するものが抽出される。この構成によれば、メタデータに対して形態素解析等が実行されることが無く、とりわけ文脈を解析する際にメタデータがノイズとならない。すなわち、音声認識の精度が向上するという効果がある。
また、本実施形態は、所定の音素の並びが検出された条件の下で、初めて検出することが可能になる所定の音素の並びを設けている。この構成によれば、ユーザの意図しないときに情報処理装置100が指令を誤って認識する可能性が低減する。
100 情報処理装置
101 入力音声ストリーム取得部
103 前処理部
104 音声認識部
105 形態素解析部
106 文脈解析部
107 音素比較部
108 音素記憶部
108a メタ情報記述子候補音素
109 実行部
121 電子メールアプリケーション
123 対話型音声認識UIアプリケーション

Claims (5)

  1. 音素と、前記音素の組み合わせからなるメタ情報記述子候補音素とを記憶する音素記憶手段と、
    音声ストリームから任意の区間を切り出す音声認識手段と、
    前記音声認識手段により切り出された前記任意の区間の音声ストリームに該当する音素候補と、前記音素記憶手段に記憶されている前記音素と、を比較して一致するか否かを判断する音素比較手段と、
    前記音素比較手段により一致すると判断された前記音素に付された音素のラベルを並べた音素の並びに対して、形態素解析を行う形態素解析手段と、
    形態素解析が行われた前記音素の並びに基づいて処理を実行する実行手段と、
    を有し、
    前記音声認識手段は、
    前記音素候補に一致した、連続する前記音素記憶手段に記憶されている前記音素が、前記メタ情報記述子候補音素と一致した場合、当該連続する音素を、メタ情報記述子として検出し、
    前記メタ情報記述子を、前記形態素解析手段が形態素解析を行う対象である前記音素の並びから取り除くとともに、前記実行手段に出力し、
    前記実行手段は、
    前記音素の並びと前記メタ情報記述子に基づいて、前記メタ情報記述子に定義された処理を、前記音素の並びを用いて実行し、
    前記メタ情報記述子候補音素は、複数であって、他の前記メタ情報記述子候補音素が検出された条件の下で初めて検出される前記メタ情報記述子候補音素を含む
    ことを特徴とする、情報処理装置。
  2. 前記音声認識手段は、
    前記音素候補に一致した、連続する前記音素記憶手段に記憶されている前記音素が、前記メタ情報記述子候補音素と一致した場合、
    且つ、
    当該連続する音素に相当する前記音声ストリームの区間を新たな音素候補として、当該音素候補と、一致した前記メタ情報記述子候補音素と、が一致した場合、
    前記メタ情報記述子を、前記形態素解析手段が形態素解析を行う対象である前記音素の並びから取り除くとともに、前記実行手段に出力する
    ことを特徴とする、請求項1に記載の情報処理装置。
  3. 前記実行手段は、
    検出された前記メタ情報記述子が取り除かれた箇所から別の前記メタ情報記述子が取り除かれた箇所までの前記音素の並びを、前記メタ情報記述子に定義された処理が用いるデータとする
    ことを特徴とする、請求項1又は2に記載の情報処理装置。
  4. 情報処理装置の制御方法であって、
    音素と、前記音素の組み合わせからなるメタ情報記述子候補音素とを記憶する音素記憶ステップと、
    音声ストリームから任意の区間を切り出す音声認識ステップと、
    前記音声認識ステップにより切り出された前記任意の区間の音声ストリームに該当する音素候補と、前記音素記憶ステップで記憶した前記音素と、を比較して一致するか否かを判断する音素比較ステップと、
    前記音素比較ステップにより一致すると判断された前記音素に付された音素のラベルを並べた音素の並びに対して、形態素解析を行う形態素解析ステップと、
    形態素解析が行われた前記音素の並びに基づいて処理を実行する実行ステップと、
    を有し、
    前記音声認識ステップでは、
    前記音素候補に一致した、連続する前記音素記憶ステップで記憶した前記音素が、前記メタ情報記述子候補音素と一致した場合、当該連続する音素を、メタ情報記述子として検出し、
    前記メタ情報記述子を、前記形態素解析ステップにて形態素解析を行う対象である前記音素の並びから取り除くとともに、前記実行ステップに出力し、
    前記実行ステップでは、
    前記音素の並びと前記メタ情報記述子に基づいて、前記メタ情報記述子に定義された処理を、前記音素の並びを用いて実行し、
    前記メタ情報記述子候補音素は、複数であって、他の前記メタ情報記述子候補音素が検出された条件の下で初めて検出される前記メタ情報記述子候補音素を含む
    ことを特徴とする、情報処理装置の制御方法。
  5. コンピュータに、
    音素と、前記音素の組み合わせからなるメタ情報記述子候補音素とを記憶する音素記憶処理と、
    音声ストリームから任意の区間を切り出す音声認識処理と、
    前記音声認識処理により切り出された前記任意の区間の音声ストリームに該当する音素候補と、前記音素記憶処理で記憶した前記音素と、を比較して一致するか否かを判断する音素比較処理と、
    前記音素比較処理により一致すると判断された前記音素に付された音素のラベルを並べた音素の並びに対して、形態素解析を行う形態素解析処理と、
    形態素解析が行われた前記音素の並びに基づいて処理を実行する実行処理と、
    を実行させるためのプログラムであって、
    前記音声認識処理では、
    前記音素候補に一致した、連続する前記音素記憶処理で記憶した前記音素が、前記メタ情報記述子候補音素と一致した場合、当該連続する音素を、メタ情報記述子として検出し、
    前記メタ情報記述子を、前記形態素解析処理にて形態素解析を行う対象である前記音素の並びから取り除くとともに、前記実行処理に出力するように、
    前記実行処理では、
    前記音素の並びと前記メタ情報記述子に基づいて、前記メタ情報記述子に定義された処理を、前記音素の並びを用いて実行するように、
    前記コンピュータに前記音声認識処理と前記実行処理とを実行させ、
    前記メタ情報記述子候補音素は、複数であって、他の前記メタ情報記述子候補音素が検出された条件の下で初めて検出される前記メタ情報記述子候補音素を含む
    ようにすることを特徴とする、プログラム。
JP2014149191A 2014-07-22 2014-07-22 情報処理装置、その制御方法及びプログラム Pending JP2016024379A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014149191A JP2016024379A (ja) 2014-07-22 2014-07-22 情報処理装置、その制御方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014149191A JP2016024379A (ja) 2014-07-22 2014-07-22 情報処理装置、その制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2016024379A true JP2016024379A (ja) 2016-02-08

Family

ID=55271153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014149191A Pending JP2016024379A (ja) 2014-07-22 2014-07-22 情報処理装置、その制御方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2016024379A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022003720A (ja) * 2020-06-23 2022-01-11 Necプラットフォームズ株式会社 館内放送管理装置、システム及び方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06161488A (ja) * 1992-11-17 1994-06-07 Ricoh Co Ltd 音声認識装置
JPH11249682A (ja) * 1998-03-03 1999-09-17 Mitsubishi Electric Corp 標準パタン学習装置及び音声認識装置
JPWO2006097975A1 (ja) * 2005-03-11 2008-08-21 岐阜サービス株式会社 音声認識プログラム
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06161488A (ja) * 1992-11-17 1994-06-07 Ricoh Co Ltd 音声認識装置
JPH11249682A (ja) * 1998-03-03 1999-09-17 Mitsubishi Electric Corp 標準パタン学習装置及び音声認識装置
JPWO2006097975A1 (ja) * 2005-03-11 2008-08-21 岐阜サービス株式会社 音声認識プログラム
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022003720A (ja) * 2020-06-23 2022-01-11 Necプラットフォームズ株式会社 館内放送管理装置、システム及び方法
JP7056880B2 (ja) 2020-06-23 2022-04-19 Necプラットフォームズ株式会社 館内放送管理装置、システム及び方法

Similar Documents

Publication Publication Date Title
KR102596446B1 (ko) 모바일 디바이스들에서의 모달리티 학습
CN107153499B (zh) 交互式白板设备的语音控制
AU2014281049B9 (en) Environmentally aware dialog policies and response generation
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
JP6484236B2 (ja) オンライン音声翻訳方法及び装置
US9792896B2 (en) Providing intelligent transcriptions of sound messages in a messaging application
US20180226073A1 (en) Context-based cognitive speech to text engine
WO2016008128A1 (en) Speech recognition using foreign word grammar
EP3779971A1 (en) Method for recording and outputting conversation between multiple parties using voice recognition technology, and device therefor
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
WO2014197303A1 (en) Language model adaptation using result selection
JP6930538B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20200320976A1 (en) Information processing apparatus, information processing method, and program
JP2010026686A (ja) 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム
WO2019050601A1 (en) GENERATION OF NAME-ENTITY PRONUNCIATION FOR SPEECH SYNTHESIS AND VOICE RECOGNITION
WO2016014597A2 (en) Translating emotions into electronic representations
US20230223021A1 (en) Enhancing signature word detection in voice assistants
JP2016024379A (ja) 情報処理装置、その制御方法及びプログラム
US11217266B2 (en) Information processing device and information processing method
JP2016024378A (ja) 情報処理装置、その制御方法及びプログラム
US20210327419A1 (en) Enhancing signature word detection in voice assistants
US10657956B2 (en) Information processing device and information processing method
Glackin et al. Smart Transcription
KR20220036097A (ko) 분절에 의한 문맥 소실을 방지하는 신경망 기반 실시간 자동통역 방법
CA3143933A1 (en) Enhancing signature word detection in voice assistants

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160726

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20170119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170321