JP2023542685A

JP2023542685A - 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム

Info

Publication number: JP2023542685A
Application number: JP2023518016A
Authority: JP
Inventors: 思▲寧▼ ▲孫▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-23
Filing date: 2021-11-08
Publication date: 2023-10-11
Also published as: WO2022134894A1; EP4191576A1; EP4191576A4; CN113539242A; US20230074869A1

Abstract

音声認識方法、装置、コンピュータ機器、及び記憶媒体に関する。該方法は、音声信号に対して音素認識を行うことにより、音声信号における各音声フレームに対応する音素認識結果を取得するステップ（２１）と、各音声フレームに対応する音素認識結果におけるヌル出力の確率を抑えて調整することにより、音素認識結果におけるヌル出力の確率と各音素の確率との比を低減するステップ（２２）と、調整後の各音声フレームに対応する音素認識結果をデコードマップに入力することにより、音声信号に対応する認識テキストシーケンスを取得するステップ（２３）と、を含む。該方法によれば、人工知能分野の音声認識シナリオにおいて、モデルの認識の正確性を向上させることができる。

Description

本願は、２０２０年１２月２３日に中国特許庁に提出された、出願番号が第２０２０１１５３６７７１．４号であり、発明の名称が「音声認識方法、装置、コンピュータ機器、及び記憶媒体」である、中国特許出願に基づく優先権を主張し、その全ての内容が、参照することにより本願に組み込まれている。

本願は、音声認識の技術分野に関し、特に音声認識方法、装置、コンピュータ機器、及び記憶媒体に関する。

音声認識は、音声をテキストとして認識する技術であり、様々な人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）のシナリオで幅広く適用されている。

音声認識フレームワークは、通常、入力された音声信号における各音声フレームの音素を認識するための音響モデル部と、認識された各音声フレームの音素によって音声信号のテキストシーケンスを出力するデコード部と、を含む。関連技術では、再帰型ニューラルネットワークトランスデューサー（ＲＮＮ－Ｔ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋＴｒａｎｓｄｕｃｅｒ）による音響モデルの実現が業界の研究の焦点の１つになっている。

しかしながら、ＲＮＮ－Ｔモデルでは、音素認識プロセスにヌル出力の概念が導入されており、即ち、ある音声フレームに有効な音素が含まれていないことを予測する。ヌル出力の導入は、いくつかの応用シナリオにおいて、後続のデコードプロセスの誤り率の上昇につながり、特に、削除エラーの増加につながり、音声認識の正確性に影響を与える。

本願で提供される様々な実施例によれば、音声認識方法、装置、コンピュータ機器、及び記憶媒体が提供されている。

コンピュータ機器が実行する音声認識方法であって、
音声信号に対して音素認識を行うことにより、前記音声信号における各音声フレームに対応する音素認識結果を取得するステップであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、ステップと、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することにより、前記音素認識結果におけるヌル出力の確率と各音素の確率との比を低減するステップと、
調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するステップであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、ステップと、を含む。

音声認識装置であって、
音声信号に対して音素認識を行うことにより、前記音声信号における各音声フレームに対応する音素認識結果を取得する音声信号処理モジュールであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、音声信号処理モジュールと、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することにより、前記音素認識結果におけるヌル出力の確率と各音素の確率との比を低減する確率調整モジュールと、
調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するデコードモジュールであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、デコードモジュールと、を含む。

音声認識方法であって、
音声信号を取得するステップであって、前記音声信号には、オリジナル音声を切り分けることにより得られた各音声フレームが含まれる、ステップと、
音声信号に対して音素認識を行うことにより、前記各音声フレームに対応する音素認識結果を取得するステップであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、ステップと、
前記各音声フレームに対応する前記音素認識結果のうち、ヌル出力の確率が指定の条件を満たす前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するステップであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、ステップと、を含む。

音声認識装置であって、
音声信号を取得する音声信号取得モジュールであって、前記音声信号には、オリジナル音声を切り分けることにより得られた各音声フレームが含まれる、音声信号取得モジュールと、
音声信号に対して音素認識を行うことにより、前記各音声フレームに対応する音素認識結果を取得する音素認識結果取得モジュールであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、音素認識結果取得モジュールと、
前記各音声フレームに対応する前記音素認識結果のうち、ヌル出力の確率が指定の条件を満たす前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得する認識テキストシーケンス取得モジュールであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、認識テキストシーケンス取得モジュールと、を含む。

プロセッサとメモリとを備えるコンピュータ機器であって、前記メモリには、少なくとも１つのコンピュータ命令が記憶され、前記少なくとも１つのコンピュータ命令は、前記プロセッサによりロードされて実行されると、上記の音声認識方法を実現させる。

少なくとも１つのコンピュータ命令を記憶したコンピュータ可読記憶媒体であって、前記少なくとも１つのコンピュータ命令は、プロセッサによりロードされて実行されると、上記の音声認識方法を実現させる。

コンピュータ命令を含むコンピュータプログラム製品又はコンピュータプログラムであって、該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサが該コンピュータ命令を実行すると、該コンピュータ機器に上記のコンピュータプログラム方法を実行させる。

本願の実施例の構成をより明確に説明するために、以下に、実施例の説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているに過ぎず、当業者であれば、創造的な労働をすることなく、これらの図面から他の図面を得ることもできる。

本願の各実施例に係る音声認識システムのシステム構成図である。１つの例示的な実施例によって示された音声認識方法のフローの模式図である。１つの例示的な実施例によって示された音声認識方法のフローの模式図である。図３に示された実施例に係るアライメントプロセスの模式図である。図３に示された実施例に係る音響モデルの構成の模式図である。図３に示された実施例に係る予測器のネットワーク構成図である。図３に示された実施例に係るモデル訓練及び応用のフローチャートである。１つの例示的な実施例によって示された音声認識システムのフレームワーク図である。１つの例示的な実施例によって示されたビデオにおけるオブジェクトアノテーション装置の構成ブロック図である。１つの例示的な実施例によって示されたコンピュータ機器の構成ブロック図である。

ここでは、例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面に関連する場合、別段の表現がない限り、異なる図面における同一の数字は、同一又は類似の要素を表す。以下の例示的な実施例に記載されている実施形態は、本願に一致する全ての実施形態を表すものではない。逆に、これらは、添付の特許請求の範囲で詳述されるような、本願のいくつかの態様に一致する装置及び方法の例に過ぎない。

本願で示される各実施例を説明する前に、本願に関連するいくつかの概念をまず説明する。

１）人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）
ＡＩは、デジタルコンピュータ、又はデジタルコンピュータにより制御される機械を用いて、人間の知能のシミュレーション、延長や拡張をし、環境を感知し、知識を取得し、知識を用いて最適な結果を取得する理論、方法、技術、及び応用システムである。言い換えれば、人工知能は、コンピュータ科学の総合的な技術であり、知能の実質を了解することと、人間の知能に類似する方式で反応できる新たな知能機械を生産することとを図る。人工知能は、各種の知能機械の設計原理及び実現方法を研究し、感知、推理、及び意思決定の機能を機械に持たせるものである。

人工知能技術は、総合的な学科であり、関連する分野が幅広く、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能の基礎技術には、一般的に、例えば、センサ、人工知能専用チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理技術、操作／インタラクティブシステム、メカトロニクスなどの技術が含まれる。人工知能のソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術、及び機械学習／深層学習などのいくつかの方面を含む。

２）音声技術（ＳＴ：ＳｐｅｅｃｈＴｅｃｈｎｏｌｏｇｙ）
音声技術のキーテクノロジーとしては、自動音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）技術、音声合成（ＴＴＳ：ＴｅｘｔＴｏＳｐｅｅｃｈ）技術、及び声紋認識技術が挙げられる。コンピュータに聞くことができ、見ることができ、話すことができ、感じることができるようにすることは、未来のヒューマンコンピュータインタラクションの発展の方向である。その中で、音声は、未来の最も有望視されるヒューマンコンピュータインタラクション方式の１つになる。

３）機械学習（ＭＬ：ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）
機械学習は、分野を横断した学際的な学科であり、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの複数の学科に関し、コンピュータがどのように人間の学習行動を模倣又は実現して、新しい知識やスキルを取得し、既存の知識構造を改めて組織して自体の性能を持続的に改善するかを専門に研究する。機械学習は、人工知能のコアであり、コンピュータに知能を付与する根本的な手段であり、人工知能の各分野にわたって適用されている。機械学習及び深層学習は、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、教師あり学習などの技術を含む。

本願の実施例で提供される発明は、人工知能に関する音声技術及び機械学習技術などのシナリオに適用されて、ユーザの音声が、それに対応するテキストとして正確に認識されることを実現する。

図１を参照する。図１には、本願の各実施例に係る音声認識システムのシステム構成図が示されている。図１に示すように、該システムは、音声収集コンポーネント１２０と、音声認識機器１４０とを含む。

ここで、音声収集コンポーネント１２０と音声認識機器１４０は、有線又は無線の方式によって接続される。

音声収集コンポーネント１２０は、マイクロフォン、マイクロフォンアレイ、又はピックアップなどとして実現されてもよい。音声収集コンポーネント１２０は、ユーザが話している音声データを収集する。

音声認識機器１４０は、音声収集コンポーネント１２０により収集された音声データを認識することにより、認識されたテキストシーケンスを取得する。

任意選択的には、音声認識機器１４０は、ユーザの音声に応答するために、認識されたテキストシーケンスに対して自然セマンティック処理を行うこともできる。

ここで、音声収集コンポーネント１２０及び音声認識機器１４０は、相互に独立した２つのハードウェア機器として実現されてもよい。例えば、音声収集コンポーネント１２０は、車両のハンドル上に設けられたマイクロフォンであり、音声認識機器１４０は、車載のスマートデバイスであってもよい。あるいは、音声収集コンポーネント１２０は、リモコンに設けられたマイクロフォンであり、音声認識機器１４０は、リモコンによって制御されるスマートホームデバイス（例えば、スマートテレビ、セットトップボックス、エアコンなど）であってもよい。

あるいは、音声収集コンポーネント１２０及び音声認識機器１４０は、同一のハードウェア機器として実現されてもよい。例えば、音声認識機器１４０は、スマートフォン、タブレットコンピュータ、スマートウォッチ、スマート眼鏡などのスマートデバイスであってもよく、音声収集コンポーネント１２０は、音声認識機器１４０に内蔵されるマイクロフォンであってもよい。

いくつかの実施例において、上記音声認識システムは、サーバ１６０をさらに含んでもよい。

ここで、該サーバ１６０は、音声認識機器１４０における音声認識モデルに対して配置及び更新を行ってもよい。あるいは、サーバ１６０は、音声認識機器１４０にクラウド音声認識のサービスを提供し、即ち、音声認識機器１４０から送信された音声データを受信し、音声データに対して音声認識を行ってから、認識結果を音声認識機器１４０に返信するようにしてもよい。あるいは、サーバ１６０は、音声認識機器１４０と協働して、音声データの認識や音声データの応答などの動作を実行してもよい。

サーバ１６０は、１つのサーバ、又はいくつかのサーバ、又は１つの仮想化プラットフォーム、又は１つのクラウドコンピューティングサービスセンターである。

サーバは、独立した物理サーバであってもよく、複数の物理サーバからなるサーバクラスタ又は分散型システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、コンテンツデリバリネットワーク（ＣＤＮ：ＣｏｎｔｅｎｔＤｅｌｉｖｅｒｙＮｅｔｗｏｒｋ）、及びビッグデータや人工知能プラットフォームなどのベースクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。

サーバ１６０と音声認識機器１４０は、通信ネットワークを介して接続される。任意選択的には、該通信ネットワークは、有線ネットワーク又は無線ネットワークである。

任意選択的には、該システムは、管理機器（図１に示されていない）をさらに含んでもよい。該管理機器とサーバ１６０は、通信ネットワークを介して接続される。任意選択的には、通信ネットワークは、有線ネットワーク又は無線ネットワークである。

任意選択的には、上記の無線ネットワーク又は有線ネットワークは、標準通信技術及び／又はプロトコルを使用する。ネットワークは、通常、インターネットであるが、任意のネットワークであってもよく、ローカルエリアネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、都市エリアネットワーク（ＭＡＮ：ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）、ワイドエリアネットワーク（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、移動、有線又は無線ネットワーク、プライベートネットワーク、あるいは仮想プライベートネットワークの任意の組み合わせを含むが、これらに限らない。いくつかの実施例では、ハイパーテキストマークアップ言語（ＨＴＭＬ：ＨｙｐｅｒＴｅｘｔＭａｒｋ－ｕｐＬａｎｇｕａｇｅ）、拡張マークアップ言語（ＸＭＬ：ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）などを含む技術及び／又はフォーマットで、ネットワークを介してやり取りされるデータを表す。また、セキュアソケットレイヤー（ＳＳＬ：ＳｅｃｕｒｅＳｏｃｋｅｔＬａｙｅｒ）、トランスポートレイヤーセキュリティ（ＴＬＳ：ＴｒａｎｓｐｏｒｔＬａｙｅｒＳｅｃｕｒｉｔｙ）、仮想プライベートネットワーク（ＶＰＮ：ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ：ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌＳｅｃｕｒｉｔｙ）などのような通常の暗号化技術を使用して、全部又は一部のリンクを暗号化してもよい。他のいくつかの実施例では、カスタマイズ及び／又は専用のデータ通信技術を使用して、上記のデータ通信技術を代替又は補足してもよい。

図２を参照する。図２には、音声認識方法のフローの模式図が示されている。該音声認識方法は、コンピュータ機器によって実行されてもよい。該コンピュータ機器は、上記の図１に示されたシステムにおける音声認識機器１４０又はサーバ１６０であってもよい。あるいは、該コンピュータ機器は、上記の図１に示されたシステムにおける音声認識機器１４０及びサーバ１６０の両方を含んでもよい。図２に示すように、該音声認識方法は、以下のステップを含んでもよい。

ステップ２１では、音声信号に対して音素認識を行うことにより、該音声信号における各音声フレームに対応する音素認識結果を取得し、該音素認識結果が、音素空間における、該音素認識結果に対応する音声フレームの確率分布を示すためのものであり、該音素空間には、各音素及びヌル出力が含まれる。

ここで、音素認識結果は、音響モデルによって、音声信号に対して音素認識を行うことにより得られた結果であってもよい。該音響モデルは、音声信号サンプルと、該音声信号サンプルにおける各音声フレームの実際の音素とによって訓練することにより得られたものである。

音素（ｐｈｏｎｅ）は、音声の自然な属性に基づいて区切られた最小音声単位であり、音節内の発音動作に基づいて分析され、１つの動作によって１つの音素が構成される。音素は、母音と子音との２種類に大きく分けられる。例えば、中国語の音節
に１つのみの音素があり、
に２つの音素があり、
に３つの音素があるなどである。

音素は、音節を構成する最小単位又は最小の音声断片であり、音質の観点から区切られた最小の線形的な音声単位である。音素は、具体的に存在する物理現象である。国際音標（国際音声学会が制定した、各国の音声を統一して表記するための字母であり、「国際音標字母」、「国際音声字母」とも呼ばれる）の音声記号は、全人類の言語の音素に１対１対応している。

音素空間は、含まれるヌル出力の数が１以上であってもよく、例えば、１つのヌル出力を含む。

本願の実施例では、音声信号における音声フレーム毎に、音響モデルによって、該音声フレームに対応する音素を認識することにより、該音声フレームの音素が所定の各音素やヌル出力に属する確率を取得することができる。

例えば、いくつかの実施例では、上記音素空間には２１２種類の音素及び１つのヌル出力（それに対応する音声フレームにユーザの発音がないことを表す）が含まれる。つまり、入力された１つの音声フレームについて、本願の実施例で示される音響モデルは、該音声フレームが２１２種類の音素及びヌル出力のそれぞれに対応する確率を出力することができる。

ステップ２２では、該各音声フレームに対応する該音素認識結果におけるヌル出力の確率を抑えて調整することにより、該音素認識結果におけるヌル出力の確率と各音素の確率との比を低減する。

ステップ２３では、調整後の該各音声フレームに対応する該音素認識結果をデコードマップに入力することにより、該音声信号に対応する認識テキストシーケンスを取得する。

ここで、デコードマップは、音素認識結果に基づいて、音声フレームに対応する音素を決定するためのものである。デコードマップには、キャラクターと音素との間のマッピング関係が含まれてもよく、１つのキャラクターは、１つの漢字であってもよく、１つの単語であってもよい。

本願の実施例では、音素認識結果がデコードマップに入力された後、デコードマップにより、音素認識結果における音素空間内の各音素及びヌル出力の確率に基づいて、該音素認識結果が、ある音素に対応しているか、又はヌル出力に対応しているかを決定し、決定された音素に基づいて、該音素認識結果に対応するテキストを決定し、音素認識結果がヌル出力に対応している場合、該音素認識結果に対応する音声フレームにユーザの発音が含まれず、即ち、該音素認識結果に対応するテキストがないと決定する。

音声信号における音声フレームは、音声収集コンポーネントにより収集されたオリジナル音声を切り分けることにより得られた各音声フレームであってもよい。音声信号における各音声フレームは、順序立てて配列し、例えば、音声フレームのオリジナル音声における位置に従って配列してもよい。例えば、音声フレームのオリジナル音声における位置が前に寄るほど、該音声フレームの音声信号における位置が前に寄る。音声情報における各音声フレームが順次に配列する。デコードマップによって取得された各音声フレームのテキストを、音声フレームの音声信号における位置に従って配列することにより、認識テキストシーケンスを取得する。

上記音素認識結果にヌル出力が含まれるため、認識誤り率の上昇につながる恐れがある。例えば、発音がある音声フレームがヌル出力として誤って認識される場合（この場合は、削除エラーとも呼ばれる）があり得るため、音声認識の正確性に影響を与える。これに対して、本願の実施例で示される発明では、音響モデルから音素認識結果が出力された後、音素認識結果におけるヌル出力の確率を抑える。音素認識結果におけるヌル出力の確率が抑えられるにつれて、該音素認識結果が、ある音素として認識される可能性も上昇し、発音がある音声フレームがヌル出力として誤って認識される場合を効果的に減少することができる。

上記のように、本願の実施例で示される発明では、音声フレームの各音素及びヌル出力における確率分布が含まれる音素認識結果について、該音素認識結果をデコードマップに入力する前に、まず、音素認識結果におけるヌル出力の確率を抑えて、音声フレームがヌル出力として認識される確率を低減することにより、音声フレームがヌル出力として誤って認識される可能性を低減し、つまり、モデルの削除エラーを低減し、モデルの認識の正確性を向上させる。

図３を参照する。図３には、音声認識方法のフローの模式図が示されている。該音声認識方法は、コンピュータ機器によって実行されてもよい。例えば、該コンピュータ機器は、上記の図１に示されたシステムにおける音声認識機器１４０又はサーバ１６０であってもよい。あるいは、該コンピュータ機器は、上記の図１に示されたシステムにおける音声認識機器１４０及びサーバ１６０の両方を含んでもよい。図３に示すように、該音声認識方法は、以下のステップを含んでもよい。

ステップ３０１では、音声信号を取得し、該音声信号には、オリジナル音声を切り分けることにより得られた各音声フレームが含まれる。

本願の実施例において、音声収集コンポーネントは、ユーザが話しているオリジナル音声を収集した後、収集したオリジナル音声をコンピュータ機器に送信し、例えば、音声認識機器に送信する。音声認識機器は、オリジナル音声を切り分けることにより、いくつかの音声フレームを取得する。

いくつかの実施例において、音声認識機器は、オリジナル音声を、重複を伴う短時間音声断片として切り分けてもよい。例えば、一般的には、サンプリングレートが１６Ｋである音声の場合、切り分けられた１フレームの音声の長さは２５ｍｓであり、フレーム間の重複は１５ｍｓである。このプロセスは、「フレーム化」とも呼ばれる。

ステップ３０２では、音声信号に対して音素認識を行うことにより、該音声信号における各音声フレームに対応する音素認識結果を取得する。

ここで、該音素認識結果は、音素空間における、該音素認識結果に対応する音声フレームの確率分布を示すためのものであり、該音素空間には、各音素及び１つのヌル出力が含まれ、該音響モデルは、音声信号サンプルと、該音声信号サンプルにおける各音声フレームの実際の音素とによって訓練することにより得られたものである。

本願の実施例において、音響モデルは、エンドツーエンドの機械学習モデルであり、その入力データは、音声信号における音声フレームを含み（例えば、音声フレームが含まれる特徴ベクトルを入力する）、出力データは、予測された、該音声フレームの音素の音素空間における分布確率、即ち音素認識結果である。

例えば、上記音素認識結果は、以下に示すような確率ベクトルで表すことができる。
（ｐ_０，ｐ_１，ｐ_２，…ｐ_２１２）

上記確率ベクトルにおいて、ｐ_０は、音声フレームがヌル出力である確率を表し、ｐ_１は、音声フレームが第１種の音素に対応している確率を表す。音素空間全体には、２１２種類の音素と、１つのヌル出力とが含まれる。

いくつかの実施例において、音声信号に対して音素認識を行うことにより、該音声信号における各音声フレームに対応する音素認識結果を取得するステップは、
訓練済みの音響モデルによって、ターゲット音声フレームに対して特徴抽出を行うことにより、該ターゲット音声フレームの特徴ベクトルを取得するステップであって、該ターゲット音声フレームが該各音声フレームのうちのいずれか１つである、ステップと、
該ターゲット音声フレームを該音響モデルにおけるエンコーダに入力することにより、該ターゲット音声フレームの音響隠れ層表現ベクトルを取得するステップと、
該ターゲット音声フレームの過去認識テキストの音素情報を該音響モデルにおける予測器に入力することにより、該ターゲット音声フレームのテキスト隠れ層表現ベクトルを取得するステップであって、該ターゲット音声フレームの過去認識テキストが、該デコードマップによって、該ターゲット音声フレームの前ｎ個（ｎは１以上の整数）の非ヌル出力の音声フレームの音素認識結果を認識することにより得られたテキストである、ステップと、
該ターゲット音声フレームの音響隠れ層表現ベクトルと、該ターゲット音声フレームのテキスト隠れ層表現ベクトルとをジョイントネットワークに入力することにより、該ターゲット音声フレームの該音素認識結果を取得するステップと、を含む。

本願の実施例では、トランスデューサー（Ｔｒａｎｓｄｕｃｅｒ）モデルによって、上記の音響モデルを実現してもよい。Ｔｒａｎｓｄｕｃｅｒモデルを以下のように紹介する。

入力シーケンス
と出力シーケンス
とが与えられる。

ここで、
は、全ての入力シーケンスの集合を表し、
は、全ての出力シーケンスの集合を表し、
は、いずれも実数ベクトルであり、
は、それぞれ入力空間及び出力空間を表す。例えば、本発明において、Ｔｒａｎｓｄｕｃｅｒモデルは、音素認識を行うためのものであり、入力シーケンス
は、特徴ベクトルシーケンスであり、例えば、フィルタバンク（ＦＢａｎｋ：ＦｉｌｔｅｒＢａｎｋ）特徴、又はメル周波数ケプストラム係数（ＭＦＣＣ：ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）特徴であり、
は、時刻ｔの特徴ベクトルを表し、出力シーケンス
は、音素シーケンスであり、
は、第ｕステップの音素を表す。

拡張出力空間
を定義する。

は、ヌル出力符号を表し、モデルからの出力がないことを表す。ヌル出力符号が導入されると、シーケンス
は、
に等価する。本発明において、ヌル出力の導入により、出力シーケンスと入力シーケンスは、同じ長さとなる。よって、集合
における要素
を「アライメント」と呼ぶ。任意の入力シーケンスが与えられた場合、Ｔｒａｎｓｄｕｃｅｒモデルでは、条件分布
が定義される。この条件分布は、入力シーケンス
が与えられた場合の出力シーケンス
の確率を計算するために使用される。

ここで、
は、アライメントシーケンスにおけるヌル出力を除去することを表し、
は、出力シーケンスにヌル出力を追加してアライメントシーケンスを生成することを表す。数式１から分かるように、出力シーケンス
の確率を計算するために、シーケンス
に対応する全ての可能なアライメント
の条件確率の和を求める必要がある。図４を参照する。図４には、本願の実施例に係るアライメントプロセスの模式図が示されている。該図４には、数式１を説明するための一例が示されている。

図４において、Ｕ＝３であり、Ｔ＝５であり、左下から右上に全ての可能な経路は、いずれもアライメントである。太字の矢印は可能な経路のうちの１つを示し、モデルが縦方向に１ステップ進むと、非ヌルの符号（音素）が出力され、モデルが横方向に１ステップ進むと、ヌルの符号が出力され（即ち、上記のヌル出力）、出力が発生していないことを示す。モデルでは、同一の時刻における複数の出力の発生が許可される。
をモデリングするために、３つのサブネットワークを用いてジョイントモデリングするのが一般的である。図５を参照する。図５には、本願の実施例に係る音響モデルの構成の模式図が示されている。図５に示すように、音響モデルは、エンコーダ５１と、予測器５２と、ジョイントネットワーク５３とを含む。

ここで、エンコーダ５１（Ｅｎｃｏｄｅｒ）は、再帰型ニューラルネットワーク、例えば、長・短期記憶（ＬＳＴＭ：Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍＭｅｍｏｒｙ）ネットワークであってもよく、時刻ｔのオーディオ特徴の入力を受け付け、音響隠れ層表現
を出力し、
予測器５２（Ｐｒｅｄｉｃｔｏｒ）は、再帰型ニューラルネットワーク、例えば、ＬＳＴＭであってもよく、モデルの過去の非ヌル出力のタグ
を受け付け、出力がテキスト隠れ層表現
であり、
ジョイントネットワーク５３（ＪｏｉｎｔＮｅｔｗｏｒｋ）は、全結合ニューラルネットワーク、例えば、線形層と活性化ユニットであってもよく、
を線形変換して和を求め、隠れユニット表現
を出力し、最後にｓｏｆｔｍａｘ関数によってそれを確率分布に変換する。

上記の図５において、
であり、アライメント
であり、最終的に、数式１の計算は、以下の通りである。

数式２の計算は、全ての可能なアライメント経路をトラバースして計算する必要がある。このアルゴリズムをそのまま使うと、膨大な計算量になる。モデル訓練プロセスでは、数式２の確率計算をフォワード・バックワードアルゴリズムで行うことができる。

いくつかの実施例において、該エンコーダは、フィードフォワードシーケンシャルメモリネットワーク（ＦＳＭＮ：ＦｅｅｄｆｏｒｗａｒｄＳｅｑｕｅｎｔｉａｌＭｅｍｏｒｙＮｅｔｗｏｒｋｓ）である。

いくつかの実施例において、該予測器は、１次元畳み込みネットワークである。

本願の実施例で示される発明は、車載オフライン音声認識システムなどの、計算能力が限られているシナリオに適用可能である。車載機器では、モデルのパラメータ量及び計算量に対する要求が高く、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）の計算力が限られているため、モデルのパラメータ量及びモデルの構成に対する要求が高い。計算量を低減して、このような計算能力が限られている応用シナリオに適応するために、本願で示される発明では、モデルのエンコーダ（Ｅｎｃｏｄｅｒ）として、全フィードフォワードニューラルネットワークＦＳＭＮを採用し、予測器（Ｐｒｅｄｉｃｔｏｒ）として、よく使われる長・短期記憶（ＬＳＴＭ）ネットワークの代わりに１次元畳み込みネットワークを採用する。

上記のＴｒａｎｓｄｕｃｅｒモデルでは、モデルの過去情報を描くために、Ｅｎｃｏｄｅｒ及びＰｒｅｄｉｃｔｏｒネットワークは、一般的にリカレントニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）構成、例えば、ＬＳＴＭやゲートリカレントユニット（ＧＲＵ：ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）などを採用する。しかしながら、計算リソースが限られている埋め込み型機器では、再帰型ニューラルネットワークは、膨大な計算量をもたらし、膨大なＣＰＵリソースの占有につながる。一方、車載オフライン音声認識の内容は、主に、問い合わせや制御系の命令であり、センテンスが比較的短く、長すぎる過去情報が必要ではない。これに対して、本発明では、ＦＳＭＮに基づくＥｎｃｏｄｅｒ及び１次元畳み込みに基づくＰｒｅｄｉｃｔｏｒネットワークが使用されている。一方では、モデルのパラメータを圧縮することができ、他方では、計算リソースを大幅に節約し、計算速度を向上させ、音声認識のリアルタイム性を保証することができる。

本発明では、ＦＳＭＮに基づくＥｎｃｏｄｅｒ構成が採用されている。ＦＳＭＮネットワークは、語彙の多い音声認識タスクに適用される。本発明で採用されるＦＳＭＮ構成は、投影層及び残差接続を有する構成であってもよい。

Ｐｒｅｄｉｃｔｏｒネットワークについて、本発明では、１次元畳み込みネットワークが採用されており、限られている過去予測出力に基づいて、現在の出力を生成する。図６を参照する。図６には、本願の実施例に係る予測器のネットワーク構成図が示されている。図６に示すように、Ｐｒｅｄｉｃｔｏｒネットワークでは、４つの非ヌルの過去出力を使用して、現在の出力のフレームワークを予測する。つまり、現在の入力に対応する４つの非ヌルの過去出力６１をベクトルマッピングしたものを、１次元畳み込みネットワーク６２に入力することにより、テキスト隠れ層表現ベクトルを取得する。

本願の実施例において、上記音響モデルは、予め設定された音声サンプルと、該音声信号サンプルにおける各音声フレームの実際の音素とによって訓練することにより取得してもよい。例えば、訓練プロセスでは、音声サンプルにおける１つの音声フレームを、音響モデルにおけるＦＳＭＮに基づくＥｎｃｏｄｅｒネットワークに入力し、該音声フレームの前４つの非ヌルの音声フレームの実際の音素（訓練開始時刻に過去の非ヌルの音声フレームがなく、又は、過去の非ヌルの音声フレームが足りない場合、予め設定された音素で代替してもよい）を、１次元畳み込みに基づくＰｒｅｄｉｃｔｏｒネットワークに入力する。音響モデルによって入力データを処理するプロセスでは、音響モデルにおける３つの部分（Ｅｎｃｏｄｅｒ、Ｐｒｅｄｉｃｔｏｒ、及びジョイントネットワーク）のパラメータを更新することにより、全ての可能なアライメント経路における確率の和、即ち上記の数式２の結果を最大化して、音響モデルの訓練を実現する。

ステップ３０３では、該各音声フレームに対応する該音素認識結果におけるヌル出力の確率を抑えて調整することにより、該音素認識結果におけるヌル出力の確率と各音素の確率との比を低減する。

いくつかの実施例において、該各音声フレームに対応する該音素認識結果におけるヌル出力の確率を抑えて調整することは、
該各音声フレームに対応する該音素認識結果におけるヌル出力の確率を低減することと、
該各音声フレームに対応する該音素認識結果における各音素の確率を向上させることと、
の少なくとも１つによって、該各音声フレームに対応する該音素認識結果を調整するステップを含む。

いくつかの実施例において、該各音声フレームに対応する該音素認識結果におけるヌル出力の確率を低減することは、
該各音声フレームに対応する該音素認識結果におけるヌル出力の確率に第１重みを掛けるステップであって、該第１重みが１未満でありかつ０より大きい、ステップを含む。

本願の実施例において、音素認識結果におけるヌル出力の確率を抑えることは、音素認識結果におけるヌル出力の確率の低減のみであってもよい。例えば、音素認識結果におけるヌル出力の確率に０から１の間の数を掛ける。このように、音素認識結果における各音素の確率が変わらないことなく、ヌル出力の確率と各音素の確率との比を低減することができる。

いくつかの実施例において、該各音声フレームに対応する該音素認識結果におけるヌル出力の確率を低減することは、
該各音声フレームに対応する該音素認識結果における各音素の確率に第２重みを掛けるステップであって、該第２重みが１より大きい、ステップを含む。

本願の実施例において、音素認識結果におけるヌル出力の確率を抑えることは、音素認識結果におけるヌル出力の確率の向上のみであってもよい。例えば、音素認識結果における各音素の確率に１より大きい数を掛ける。このように、音素認識結果におけるヌル出力の確率が変わらないことなく、ヌル出力の確率と各音素の確率との比を低減することができる。

他の例示的な発明において、コンピュータ機器は、音素認識結果におけるヌル出力の確率を低減するとともに、該音素認識結果における各音素の確率を向上させてもよい。例えば、音素認識結果におけるヌル出力の確率に０から１の間の数を掛けるとともに、音素認識結果における各音素の確率に１より大きい数を掛ける。

本発明において、上記音響モデルでは、入力と出力との間のアライメントを取得するために、入力された音素シーケンスにヌル出力符号（即ち
）を挿入する必要がある。符号
は、他の音素と同様に、モデルで予測される。非ヌルの音素の総数がＰであると仮定すると、最終モデルの出力次元がＰ＋１であり、通常、第０次元はヌル出力
を表す。実験から、ヌル出力の導入によりモデルの削除エラーが大幅に増加することが分かる。これは、大量の音素がヌル出力として誤って認識されてしまうことを示す。ヌル出力の確率が高すぎる問題を解決するために、本願では、Ｔｒａｎｓｄｕｃｅｒデコードプロセスにおいて、ヌル出力の確率重みを調整することにより、削除エラーの発生を減少する。

該各音声フレームに対応する該音素認識結果におけるヌル出力の確率に第１重みを掛ける場合を例として、ヌル出力の確率が
であると仮定する。ヌル出力の確率を低減するために、本発明では、元のヌル出力の確率値を１より大きい重みαで割り、α＞１である。αは、ディスカウント因子（ｄｉｓｃｏｕｎｔｆａｃｔｏｒ）と呼ばれる。調整後のヌル出力の確率値は、次の通りである。

一般的には、対数確率を最終的な値として最終的なデコードスコア計算に参加させるので、数式３の両側に対数を取ることにより、
を取得することができる。

後続のデコードを行うために、上記数式４の結果をヌル出力の調整後の確率としてもよい。

いくつかの実施例において、上記の第１重みや第２重みは、開発者や管理者によりコンピュータ機器に予め設定されたものである。例えば、上記の第１重みや第２重みは、開発者により音声認識モデルに予め設定されてもよい。

ステップ３０４では、各音声フレームに対応する該音素認識結果のうち、ヌル出力の確率が指定の条件を満たす該音素認識結果をデコードマップに入力することにより、該音声信号に対応する認識テキストシーケンスを取得する。

いくつかの実施例では、調整後の該各音声フレームに対応する該音素認識結果をデコードマップに入力することにより、該音声信号に対応する認識テキストシーケンスを取得する該ステップは、
ターゲット音素認識結果におけるヌル出力の確率が指定の条件を満たす場合、該ターゲット音素認識結果を該デコードマップに入力することにより、該ターゲット音素認識結果に対応する認識テキストを取得するステップを含み、
ここで、該ターゲット音素認識結果は、該各音声フレームに対応する該音素認識結果のうちのいずれか１つである。

いくつかの実施例において、該指定の条件は、
該ターゲット音素認識結果におけるヌル出力の確率が確率閾値より小さいことを含む。

実験から、ＤＮＮ－ＨＭＭモデルに比べて、Ｔｒａｎｓｄｕｃｅｒモデルの出力には、明らかなスパイク効果があり、即ち、ある時点で、モデルから、ある予測結果が、きわめて高い信頼度で出力されることが分かる。モデルのスパイク効果を利用することで、デコードプロセスにおいて、モデルによりヌル出力と予測される確率をスキップすることができ、即ち、これらの確率は、デコードマップのデコードプロセスに参加することがない。本願では、音素をモデリングユニットとするとともに、デコード時にヌル出力をスキップするため、デコードマップの探索ステップ数が音素の個数のみに関係することになる。これは、本発明において「音素同期デコード（ＰＳＤ：ＰｈｏｎｅＳｙｎｃｈｒｏｎｏｕｓＤｅｃｏｄｉｎｇ）」と呼ばれる。次の図は、本発明で提案されるＰＳＤアルゴリズム及びヌル出力の重み調整のフロー全体を示している。

ここで、上記のアルゴリズムの６行目は、重みの調整が行われ、アルゴリズムにおける
は、数式３の１／αであり、上記のアルゴリズムの１３～１７行目は、本発明で提案されるＰＳＤアルゴリズムであり、即ち、ヌル出力の確率が一定の閾値
より小さい場合にのみ、ネットワーク出力の確率分布が後続のデコードマップのデコードに参加する。

いくつかの実施例において、上記の確率閾値は、開発者や管理者によりコンピュータ機器に予め設定されたものである。例えば、上記の確率閾値は、開発者により音声認識モデルに予め設定されてもよい。

いくつかの実施例では、調整後の該各音声フレームに対応する該音素認識結果をデコードマップに入力することにより、該音声信号に対応する認識テキストシーケンスを取得する該ステップの前に、該方法は、
閾値影響パラメータを取得するステップであって、該閾値影響パラメータには、環境音強度、指定時間帯内の音声認識の失敗回数、及びユーザ設定情報のうちの少なくとも１つが含まれる、ステップと、
該閾値影響パラメータに基づいて、該確率閾値を決定するステップと、をさらに含む。
本願の実施例において、上記確率閾値は、コンピュータ機器が音声認識を行うプロセス中に調整してもよい。つまり、コンピュータ機器は、確率閾値の値に影響し得る関連パラメータを取得し、関連パラメータによって確率閾値を柔軟に設定してもよい。

例えば、環境音強度がユーザの発する音声に干渉を与えるため、環境音強度が強い場合、コンピュータ機器は、より多くの音素認識結果がデコードマップに入力されてデコードされるように、確率閾値を高く設定することにより、認識の正確性を保証してもよい。逆に、環境音強度が弱い場合、コンピュータ機器は、より多くの音素認識結果がスキップされるように、確率閾値を低く設定することにより、認識の効率を保証してもよい。

また、例えば、デコードマップに基づいて音素認識結果をデコードする正確性が音声認識の成功率に影響を与える。指定の時間帯（例えば、現在の時刻より前の時間帯、例えば５分）内の音声認識の失敗回数が多すぎる場合、コンピュータ機器は、より多くの音素認識結果がデコードマップに入力されてデコードされるように、確率閾値を高く設定することにより、認識の正確性を保証してもよい。逆に、指定の時間帯内に音声認識の失敗回数が少ないか、失敗していない場合、コンピュータ機器は、より多くの音素認識結果がスキップされるように、確率閾値を低く設定することにより、認識の効率を保証してもよい。

いくつかの実施例において、該デコードマップは、音素辞書及び言語モデルによって複合的に構成される。

本発明で採用されるデコードマップは、音素辞書と言語モデルとの２つのサブ重み付き有限状態トランスデューサー（ＷＦＳＴ：ＷｅｉｇｈｔｅｄＦｉｎｉｔｅＳｔａｔｅＴｒａｎｓｄｕｃｅｒ）マップによって複合されたものである。

音素辞書ＷＦＳＴ：漢字又は単語から音素シーケンスへのマッピングである。音素シーケンスストリングが入力されると、ＷＦＳＴは、それに対応する漢字又は単語を出力することができる。通常、このＷＦＳＴは、テキストの分野に関係なく、異なる認識タスクにおいて共通部分である。

言語モデルＷＦＳＴ：このＷＦＳＴは、通常、ｎ－ｇｒａｍ言語モデルから変換されたものである。言語モデルは、１つのセンテンスが出現する確率を計算するためのものであり、訓練データ及び統計学的方法を用いて訓練されたものである。通常、異なる分野のテキスト、例えばニュースと話し言葉のテキストは、よく使われる単語や単語の組み合わせに大きな違いがあるため、異なる分野の音声認識を行う際に、言語モデルＷＦＳＴを変更することで、適応を図ることができる。

図７を参照する。図７には、本願の実施例に係るモデル訓練及び応用のフローチャートが示されている。図７に示すように、車載機器に適用される場合を例として、本願の実施例で示されるモデル訓練の完了後に、ｌｉｂｔｏｒｃｈを用いてモデルの量子化及び配置を行う。ｌｉｂｔｏｒｃｈのアンドロイド（登録商標）版では、ＱＮＮＰＡＣＫライブラリを用いてＩＮＴ８の行列演算を行うことで、行列演算を大幅に高速化する。モデルは、Ｐｙｔｈｏｎ環境７１で、ｐｙｔｏｒｃｈを用いて訓練される。そして、モデルに対して訓練後の量子化を行う。即ち、モデルのパラメータをＩＮＴ８に量子化し、ＩＮＴ８による行列乗算を用いて計算を高速化する。量子化されたモデルをエクスポートしてＣ＋＋環境７２での前向き推論に用いることで、テストデータによるテストを行う。

本願で示される発明によれば、一方で、訓練プロセス中に、Ｔｒａｎｓｄｕｃｅｒに基づくエンドツーエンドモデルは、フレームレベルのアライメント情報を必要とせず、モデリングプロセスが大幅に簡略化される。次に、デコードマップが簡略化され、探索空間が低減される。本発明で提案される方法では、音素モデリングを用いるため、デコードマップには、ＬとＧの複合のみが必要であり、探索空間が大幅に低減される。最後に、音素モデリングを用いて、カスタマイズされたデコードマップと組み合わせることで、柔軟なカスタマイズが可能となり、異なるビジネスシナリオに応じて、音響モデルを変更することなく、言語モデルをカスタマイズするだけで、それぞれのビジネスシナリオに適応させることができる。

関連技術におけるオフライン認識システムに比べて、本発明は、認識率及びＣＰＵの占有率の両方で優位にある。

認識率の面では、ＤＮＮと隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）とを組み合わせたシステムモデル（ＤＮＮ－ＨＭＭモデル）に比べて、本発明で示されるシステムモデルは、大幅に向上している。

ＣＰＵの占有率の面では、本発明で示されるシステムモデルは、モデルのパラメータ量がＤＮＮ－ＨＭＭシステムの４倍である場合においても、ＤＮＮ－ＨＭＭシステムモデルと類似したＣＰＵの占有率を有する。

音声認識率の比較は以下の通りである。

次の表１は、３つのデータセット上で、従来のＤＮＮ－ＨＭＭシステムと本発明で提案されるＴｒａｎｓｄｕｃｅｒシステムとのキャラクター誤り率（ＣＥＲ：ＣｈａｒａｃｔｅｒＥｒｒｏｒＲａｔｅ）の比較を示している。

表１から分かるように、類似したパラメータ量の場合、Ｔｒａｎｓｄｕｃｄｅｒ１モデルは、２つのテストセット上で、それぞれＣＥＲの１８．７％と１８．６％の低下を達成した。また、モデルのパラメータ量を増やしたところ、Ｔｒａｎｓｄｕｃｅｒ３を用いて、それぞれ８．９３％と１３．１８％のキャラクター誤り率を達成した。

ＣＰＵの占有率の比較：

Ｔｒａｎｓｄｕｃｅｒ１とＤＮＮ－ＨＭＭを表２で比較すると、２つのモデルのパラメータ量が同等である場合、Ｔｒａｎｓｄｕｃｅｒ１モデルは、ＤＮＮ－ＨＭＭモデルよりも、ピーク値が２％高くなる。しかし、モデルのパラメータ量が増加すると、Ｔｒａｎｓｄｕｃｅｒモデルのピーク値に明らかな変化がない。モデルのパラメータ量の大幅な増加及び認識誤り率の低減という条件でも、ＣＰＵの占有率は依然として低いレベルにある。

本願の上記図３に示された実施例の発明では、ヌル出力重み調整（ステップ３０３）及びデコードフレームスキップ（ステップ３０４に対応）の両方を適用する場合を例として説明しているが、他の実現形態では、ヌル出力重み調整及びデコードフレームスキップを独立して適用してもよい。例えば、本願の１つの例示的な実施例において、上記のデコードフレームスキップを独立して適用する場合、本願で示される発明は、
音声信号を取得するステップであって、該音声信号には、オリジナル音声を切り分けることにより得られた各音声フレームが含まれる、ステップと、
音声信号に対して音素認識を行うことにより、該各音声フレームに対応する音素認識結果を取得するステップであって、該音素認識結果が、音素空間における、該音素認識結果に対応する音声フレームの確率分布を示すためのものであり、該音素空間には、各音素及び１つのヌル出力が含まれる、ステップと、
該各音声フレームに対応する該音素認識結果のうち、ヌル出力の確率が指定の条件を満たす該音素認識結果をデコードマップに入力することにより、該音声信号に対応する認識テキストシーケンスを取得するステップと、を含んでもよい。

上記のように、本願の実施例で示される発明では、音声フレームの各音素及びヌル出力における確率分布が含まれる音素認識結果に対して、該音素認識結果をデコードマップに入力すると、そのうち、ヌル出力の確率が条件を満たす音素識別結果をデコードし、デコードすべき音素認識結果の数を減らして、不要なデコードステップをスキップすることができる。これにより、音声認識の効率を効果的に向上させる。

図８を参照する。図８は、１つの例示的な実施例によって示された音声認識システムのフレームワーク図である。図８に示すように、オーディオ収集機器８１と音声認識機器８２とが接続され、音声認識機器８２には、音響モデル８２ａと、確率調整ユニット８２ｂと、デコードマップ入力ユニット８２ｃと、デコードマップ８２ｄと、特徴抽出ユニット８２ｅとが含まれる。そのうち、デコードマップ８２ｄは、音素辞書及び言語モデルによって構成される。

応用プロセスでは、オーディオ収集機器８１がユーザのオリジナル音声を収集した後、音声認識機器８２における特徴抽出ユニット８２ｅにオリジナル音声を伝送する。特徴抽出ユニットによる切り分け及び各音声フレームの特徴抽出後、１つの音声フレームの音声特徴と、デコードマップ８２ｄが該音声フレームの前４つの非ヌルの音声フレームに対して認識したテキストの音素とを、音響モデル８２ａにおけるＦＳＭＮ及び１次元畳み込みネットワークにそれぞれ入力することにより、音響モデル８２ａから出力される該音声フレームの音素認識結果を取得する。

該音素認識結果が確率調整ユニット８２ｂに入力され、ヌル出力の確率調整が行われることで、調整後の音素認識結果が取得される。デコードマップ入力ユニット８２ｃは、該調整後の音声認識結果を判断し、調整後のヌル出力の確率が閾値より小さいと判断した場合、デコードする必要があると決定し、該調整後の音素認識結果をデコードマップ８２ｄに入力し、デコードマップ８２ｄによってテキストを認識する。逆に、調整後のヌル出力の確率が閾値より小さくないと判断した場合、デコードする必要がないと決定し、該調整後の音声認識結果を捨てる。

上記のデコードマップが各音声フレームの調整後の音素認識結果を認識してテキストシーケンスを出力した後、テキストシーケンスを自然言語処理コンポーネントに出力し、自然言語処理コンポーネントによって、ユーザが入力した音声に応答してもよい。

図９は、１つの例示的な実施例によって示された音声認識装置の構成ブロック図である。該音声認識装置は、図２又は図３に示された実施例で提供される方法のステップの全部又は一部を実現することができる。該音声認識装置は、
音声信号に対して音素認識を行うことにより、音声信号における各音声フレームに対応する音素認識結果を取得する音声信号処理モジュール９０１であって、音素認識結果が、音素空間における、音素認識結果に対応する音声フレームの確率分布を示すためのものであり、音素空間には、各音素及びヌル出力が含まれる、音声信号処理モジュール９０１と、
各音声フレームに対応する音素認識結果におけるヌル出力の確率を抑えて調整することにより、音素認識結果におけるヌル出力の確率と各音素の確率との比を低減する確率調整モジュール９０２と、
調整後の各音声フレームに対応する音素認識結果をデコードマップに入力することにより、音声信号に対応する認識テキストシーケンスを取得するデコードモジュール９０３であって、デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、デコードモジュール９０３と、を含んでもよい。

いくつかの実施例において、確率調整モジュール９０２は、
各音声フレームに対応する音素認識結果におけるヌル出力の確率を低減することと、
各音声フレームに対応する音素認識結果における各音素の確率を向上させることと、
の少なくとも１つによって、各音声フレームに対応する音素認識結果を調整する。

いくつかの実施例において、確率調整モジュール９０２は、各音声フレームに対応する音素認識結果におけるヌル出力の確率に第１重みを掛け、第１重みが１未満でありかつ０より大きい。

いくつかの実施例において、確率調整モジュール９０２は、各音声フレームに対応する音素認識結果における各音素の確率に第２重みを掛け、第２重みが１より大きい。

いくつかの実施例において、デコードモジュール９０３は、
ターゲット音素認識結果におけるヌル出力の確率が指定の条件を満たす場合、ターゲット音素認識結果をデコードマップに入力することにより、ターゲット音素認識結果に対応する認識テキストを取得し、
ここで、ターゲット音素認識結果は、各音声フレームに対応する該音素認識結果のうちのいずれか１つである。

いくつかの実施例において、指定の条件は、
ターゲット音素認識結果におけるヌル出力の確率が確率閾値より小さいことを含む。

いくつかの実施例において、装置は、
閾値影響パラメータを取得するパラメータ取得モジュールであって、閾値影響パラメータには、環境音強度、指定時間帯内の音声認識の失敗回数、及びユーザ設定情報のうちの少なくとも１つが含まれる、パラメータ取得モジュールと、
閾値影響パラメータに基づいて確率閾値を決定する閾値決定モジュールと、をさらに含む。

いくつかの実施例において、音声信号処理モジュール９０１は、
訓練済みの音響モデルによって、ターゲット音声フレームに対して特徴抽出を行うことにより、ターゲット音声フレームの特徴ベクトルを取得し、ターゲット音声フレームが各音声フレームのうちのいずれか１つであり、
ターゲット音声フレームを音響モデルにおけるエンコーダに入力することにより、ターゲット音声フレームの音響隠れ層表現ベクトルを取得し、
ターゲット音声フレームの過去認識テキストの音素情報を音響モデルにおける予測器に入力することにより、ターゲット音声フレームのテキスト隠れ層表現ベクトルを取得し、ターゲット音声フレームの過去認識テキストが、デコードマップによって、ターゲット音声フレームの前ｎ個（ｎは１以上の整数）の非ヌル出力の音声フレームの音素認識結果を認識することにより得られたテキストであり、
ターゲット音声フレームの音響隠れ層表現ベクトルと、ターゲット音声フレームのテキスト隠れ層表現ベクトルとをジョイントネットワークに入力することにより、ターゲット音声フレームの音素認識結果を取得する。

いくつかの実施例において、エンコーダは、フィードフォワードシーケンシャルメモリネットワーク（ＦＳＭＮ）である。

いくつかの実施例において、予測器は、１次元畳み込みネットワークである。

いくつかの実施例において、デコードマップは、音素辞書及び言語モデルによって複合的に構成される。

図１０は、１つの例示的な実施例によって示されたコンピュータ機器の構成の模式図である。該コンピュータ機器は、上記の各方法の実施例におけるコンピュータ機器として実現されてもよい。前記コンピュータ機器１０００は、中央処理装置１００１と、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１００２及び読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）１００３を含めたシステムメモリ１００４と、システムメモリ１００４及び中央処理装置１００１を接続するシステムバス１００５と、を含む。前記コンピュータ機器１０００は、コンピュータ内の各部品間の情報の伝送を支援する基本入出力システム１００６と、オペレーティングシステム１０１３、アプリケーションプログラム１０１４、及び他のプログラムモジュール１０１５を記憶するための大容量記憶装置１００７と、をさらに含む。

前記大容量記憶装置１００７は、システムバス１００５に接続された大容量記憶コントローラ（図示せず）を介して中央処理装置１００１に接続されている。前記大容量記憶装置１００７及びそれに関連するコンピュータ可読媒体は、コンピュータ機器１０００に対して不揮発性記憶を提供する。つまり、前記大容量記憶装置１００７は、ハードディスクやコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）ドライブのようなコンピュータ可読媒体（図示せず）を含んでもよい。

一般性を失うことなく、前記コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体とを含んでもよい。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどのような情報を記憶するための任意の方法又は技術によって実現される揮発性及び不揮発性、移動可能な及び移動不可な媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、フラッシュメモリ又は他のソリッドステート記憶装置、ＣＤ－ＲＯＭ、又は他の光学的記憶装置、テープカートリッジ、磁気テープ、磁気ディスク記憶装置又は他の磁気記憶装置を含む。もちろん、当業者であれば、前記コンピュータ記憶媒体がこれらに限定されないことが分かる。上記のシステムメモリ１００４及び大容量記憶装置１００７を総称してメモリと呼んでもよい。

コンピュータ機器１０００は、前記システムバス１００５に接続されたネットワークインタフェースユニット１０１１を介して、インターネット又は他のネットワーク機器に接続されてもよい。

前記メモリには、少なくとも１つのコンピュータ命令がさらに含まれ、前記少なくとも１つのコンピュータ命令がメモリに記憶され、プロセッサは、該少なくとも１つのコンピュータ命令をロードして実行することにより、図２又は図３に示された方法のステップの全部又は一部を実現する。

例示的な実施例では、命令を含む非一時的なコンピュータ可読記憶媒体、例えば、コンピュータプログラム（命令）を含むメモリがさらに提供されている。上記プログラム（命令）は、コンピュータ機器のプロセッサによって実行されると、本願の各実施例で示される方法を実行させることが可能である。例えば、前記非一時的なコンピュータ可読記憶媒体は、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、磁気テープ、フロッピーディスク、及び光データ記憶装置などであってもよい。

例示的な実施例では、コンピュータ命令を含むコンピュータプログラム製品又はコンピュータプログラムがさらに提供されている。該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサが該コンピュータ命令を実行すると、該コンピュータ機器に上記の各実施例で示される方法を実行させる。

コンピュータプログラムを含むコンピュータプログラム製品であって、該コンピュータプログラムがプロセッサによって実行されると、上記の各実施例で示される方法を実現させることを特徴とする。

当業者は、明細書を考慮して、ここで開示された発明を実施した後、本願の他の実施形態を容易に想到し得る。本願は、本願の任意の変形、用途、又は適応的な変更が包括されることを趣旨とする。これらの変形、用途、又は適応的な変更は、本願の一般的な原理に従い、本願に開示されていない本技術分野における技術常識又は慣用の技術的手段を含む。明細書及び実施例は、例示的なものと見なされるに過ぎず、本願の本当の範囲及び精神は、特許請求の範囲によって示される。

理解すべきものとして、本願は、上記で説明されて図面に示された精確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正及び変更が可能である。本願の範囲は、添付の特許請求の範囲によってのみ限定される。

５１エンコーダ
５２予測器
５３ジョイントネットワーク
６１非ヌルの過去出力
６２１次元畳み込みネットワーク
７１Ｐｙｔｈｏｎ環境
７２Ｃ＋＋環境
８１オーディオ収集機器
８２音声認識機器
８２ａ音響モデル
８２ｂ確率調整ユニット
８２ｃデコードマップ入力ユニット
８２ｄデコードマップ
８２ｅ特徴抽出ユニット
１２０音声収集コンポーネント
１４０音声認識機器
１６０サーバ
９０１音声信号処理モジュール
９０２確率調整モジュール
９０３デコードモジュール
１０００コンピュータ機器
１００１中央処理装置
１００２ランダムアクセスメモリ
１００３読み出し専用メモリ
１００４システムメモリ
１００５システムバス
１００６基本入出力システム
１００７大容量記憶装置
１０１３オペレーティングシステム
１０１４アプリケーションプログラム
１０１５その他のプログラムモジュール

コンピュータ命令を含むコンピュータプログラム製品又はコンピュータプログラムであって、該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサが該コンピュータ命令を実行すると、該コンピュータ機器に上記の音声認識方法を実行させる。

本願の各実施例に係る音声認識システムのシステム構成図である。１つの例示的な実施例によって示された音声認識方法のフローの模式図である。１つの例示的な実施例によって示された音声認識方法のフローの模式図である。図３に示された実施例に係るアライメントプロセスの模式図である。図３に示された実施例に係る音響モデルの構成の模式図である。図３に示された実施例に係る予測器のネットワーク構成図である。図３に示された実施例に係るモデル訓練及び応用のフローチャートである。１つの例示的な実施例によって示された音声認識システムのフレームワーク図である。１つの例示的な実施例によって示された音声認識装置の構成ブロック図である。１つの例示的な実施例によって示されたコンピュータ機器の構成ブロック図である。

音声信号における音声フレームは、音声収集コンポーネントにより収集されたオリジナル音声を切り分けることにより得られた各音声フレームであってもよい。音声信号における各音声フレームは、順序立てて配列し、例えば、音声フレームのオリジナル音声における位置に従って配列してもよい。例えば、音声フレームのオリジナル音声における位置が前に寄るほど、該音声フレームの音声信号における位置が前に寄る。音声信号における各音声フレームが順次に配列する。デコードマップによって取得された各音声フレームのテキストを、音声フレームの音声信号における位置に従って配列することにより、認識テキストシーケンスを取得する。

本願の実施例において、上記音響モデルは、予め設定された音声信号サンプルと、該音声信号サンプルにおける各音声フレームの実際の音素とによって訓練することにより取得してもよい。例えば、訓練プロセスでは、音声信号サンプルにおける１つの音声フレームを、音響モデルにおけるＦＳＭＮに基づくＥｎｃｏｄｅｒネットワークに入力し、該音声フレームの前４つの非ヌルの音声フレームの実際の音素（訓練開始時刻に過去の非ヌルの音声フレームがなく、又は、過去の非ヌルの音声フレームが足りない場合、予め設定された音素で代替してもよい）を、１次元畳み込みに基づくＰｒｅｄｉｃｔｏｒネットワークに入力する。音響モデルによって入力データを処理するプロセスでは、音響モデルにおける３つの部分（Ｅｎｃｏｄｅｒ、Ｐｒｅｄｉｃｔｏｒ、及びジョイントネットワーク）のパラメータを更新することにより、全ての可能なアライメント経路における確率の和、即ち上記の数式２の結果を最大化して、音響モデルの訓練を実現する。

本願の実施例において、音素認識結果におけるヌル出力の確率を抑えることは、音素認識結果における各音素の確率の向上のみであってもよい。例えば、音素認識結果における各音素の確率に１より大きい数を掛ける。このように、音素認識結果におけるヌル出力の確率が変わらないことなく、ヌル出力の確率と各音素の確率との比を低減することができる。

ＣＰＵの占有率の比較：

該音素認識結果が確率調整ユニット８２ｂに入力され、ヌル出力の確率調整が行われることで、調整後の音素認識結果が取得される。デコードマップ入力ユニット８２ｃは、該調整後の音素認識結果を判断し、調整後のヌル出力の確率が閾値より小さいと判断した場合、デコードする必要があると決定し、該調整後の音素認識結果をデコードマップ８２ｄに入力し、デコードマップ８２ｄによってテキストを認識する。逆に、調整後のヌル出力の確率が閾値より小さくないと判断した場合、デコードする必要がないと決定し、該調整後の音素認識結果を捨てる。

Claims

コンピュータ機器が実行する音声認識方法であって、
音声信号に対して音素認識を行うことにより、前記音声信号における各音声フレームに対応する音素認識結果を取得するステップであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、ステップと、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することにより、前記音素認識結果におけるヌル出力の確率と各音素の確率との比を低減するステップと、
調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するステップであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、ステップと、
を含むことを特徴とする方法。
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することは、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を低減するステップを含む、
ことを特徴とする請求項１に記載の方法。
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を低減する前記ステップは、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率に第１重みを掛けるステップであって、前記第１重みが１未満でありかつ０より大きい、ステップを含む、
ことを特徴とする請求項２に記載の方法。
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を低減する前記ステップは、
前記各音声フレームに対応する前記音素認識結果における各音素の確率に第２重みを掛けるステップであって、前記第２重みが１より大きい、ステップを含む、
ことを特徴とする請求項２に記載の方法。
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することは、
前記各音声フレームに対応する前記音素認識結果における各音素の確率を向上させるステップを含む、
ことを特徴とする請求項１に記載の方法。
調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得する前記ステップは、
ターゲット音素認識結果におけるヌル出力の確率が指定の条件を満たす場合、前記ターゲット音素認識結果を前記デコードマップに入力することにより、前記ターゲット音素認識結果に対応する認識テキストを取得するステップを含み、
前記ターゲット音素認識結果は、前記各音声フレームに対応する前記音素認識結果のうちのいずれか１つである、
ことを特徴とする請求項１に記載の方法。
前記指定の条件は、
前記ターゲット音素認識結果におけるヌル出力の確率が確率閾値より小さいことを含む、
ことを特徴とする請求項６に記載の方法。
調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得する前記ステップの前に、
閾値影響パラメータを取得するステップであって、前記閾値影響パラメータには、環境音強度、指定時間帯内の音声認識の失敗回数、及びユーザ設定情報のうちの少なくとも１つが含まれる、ステップと、
前記閾値影響パラメータに基づいて前記確率閾値を決定するステップと、をさらに含む、
ことを特徴とする請求項７に記載の方法。
音声信号に対して音素認識を行うことにより、前記音声信号における各音声フレームに対応する音素認識結果を取得する前記ステップは、
訓練済みの音響モデルによって、ターゲット音声フレームに対して特徴抽出を行うことにより、前記ターゲット音声フレームの特徴ベクトルを取得するステップであって、前記ターゲット音声フレームが前記各音声フレームのうちのいずれか１つである、ステップと、
前記ターゲット音声フレームを前記音響モデルにおけるエンコーダに入力することにより、前記ターゲット音声フレームの音響隠れ層表現ベクトルを取得するステップと、
前記ターゲット音声フレームの過去認識テキストの音素情報を前記音響モデルにおける予測器に入力することにより、前記ターゲット音声フレームのテキスト隠れ層表現ベクトルを取得するステップであって、前記ターゲット音声フレームの過去認識テキストが、前記デコードマップによって、前記ターゲット音声フレームの前ｎ個（ｎは１以上の整数）の非ヌル出力の音声フレームの音素認識結果を認識することにより得られたテキストである、ステップと、
前記ターゲット音声フレームの音響隠れ層表現ベクトルと、前記ターゲット音声フレームのテキスト隠れ層表現ベクトルとを前記音響モデルにおけるジョイントネットワークに入力することにより、前記ターゲット音声フレームの前記音素認識結果を取得するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記エンコーダは、フィードフォワードシーケンシャルメモリネットワーク（ＦＳＭＮ）である、
ことを特徴とする請求項９に記載の方法。
前記予測器は、１次元畳み込みネットワークである、
ことを特徴とする請求項９に記載の方法。
前記デコードマップは、音素辞書及び言語モデルによって複合的に構成される、
ことを特徴とする請求項１乃至９のいずれか１項に記載の方法。
コンピュータ機器が実行する音声認識方法であって、
音声信号を取得するステップであって、前記音声信号には、オリジナル音声を切り分けることにより得られた各音声フレームが含まれる、ステップと、
音声信号に対して音素認識を行うことにより、前記各音声フレームに対応する音素認識結果を取得するステップであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、ステップと、
前記各音声フレームに対応する前記音素認識結果のうち、ヌル出力の確率が指定の条件を満たす前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するステップであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、ステップと、
を含むことを特徴とする方法。
音声認識装置であって、
音声信号に対して音素認識を行うことにより、前記音声信号における各音声フレームに対応する音素認識結果を取得する音声信号処理モジュールであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、音声信号処理モジュールと、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を抑えて調整することにより、前記音素認識結果におけるヌル出力の確率と各音素の確率との比を低減する確率調整モジュールと、
調整後の前記各音声フレームに対応する前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得するデコードモジュールであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、デコードモジュールと、
を含むことを特徴とする装置。
前記確率調整モジュールは、さらに、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率を低減する、
ことを特徴とする請求項１４に記載の装置。
前記確率調整モジュールは、さらに、
前記各音声フレームに対応する前記音素認識結果におけるヌル出力の確率に第１重みを掛け、前記第１重みが１未満でありかつ０より大きい、
ことを特徴とする請求項１５に記載の装置。
音声認識装置であって、
音声信号を取得する音声信号取得モジュールであって、前記音声信号には、オリジナル音声を切り分けることにより得られた各音声フレームが含まれる、音声信号取得モジュールと、
音声信号に対して音素認識を行うことにより、前記各音声フレームに対応する音素認識結果を取得する音素認識結果取得モジュールであって、前記音素認識結果が、音素空間における、前記音素認識結果に対応する音声フレームの確率分布を示すためのものであり、前記音素空間には、各音素及びヌル出力が含まれる、音素認識結果取得モジュールと、
前記各音声フレームに対応する前記音素認識結果のうち、ヌル出力の確率が指定の条件を満たす前記音素認識結果をデコードマップに入力することにより、前記音声信号に対応する認識テキストシーケンスを取得する認識テキストシーケンス取得モジュールであって、前記デコードマップには、キャラクターと音素との間のマッピング関係が含まれる、認識テキストシーケンス取得モジュールと、
を含むことを特徴とする装置。
プロセッサとメモリとを備えるコンピュータ機器であって、前記メモリには、少なくとも１つのコンピュータ命令が記憶され、前記少なくとも１つのコンピュータ命令は、前記プロセッサによりロードされて実行されると、請求項１乃至１３のいずれか１項に記載の音声認識方法を実現させることを特徴とするコンピュータ機器。
少なくとも１つのコンピュータ命令を記憶したコンピュータ可読記憶媒体であって、前記少なくとも１つのコンピュータ命令は、プロセッサによりロードされて実行されると、請求項１乃至１３のいずれか１項に記載の音声認識方法を実現させることを特徴とする記憶媒体。
コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項１乃至１３のいずれか１項に記載の方法のステップを実現させることを特徴とするコンピュータプログラム製品。