JP6909832B2

JP6909832B2 - オーディオにおける重要語句を認識するための方法、装置、機器及び媒体

Info

Publication number: JP6909832B2
Application number: JP2019149241A
Authority: JP
Inventors: ジーファ・ワン; ティエンシン・ヤン; ジーポン・ウー; ビン・ポン; チェンユェン・ヂャオ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-20
Filing date: 2019-08-16
Publication date: 2021-07-28
Anticipated expiration: 2039-08-16
Also published as: US11308937B2; JP2020030408A; KR102316063B1; US20200058291A1; KR20200021429A; CN109241330A; EP3614378A1

Description

本開示の実施例は、データ処理分野に関し、具体的に、オーディオにおける重要語句を認識するための方法、装置、機器及びコンピュータ読み取り可能な記憶媒体に関する。

コンピュータ技術の発展とスマート端末の普及に伴い、スマートフォン又はスマートスピーカボックス等の端末機器を用いて種々なトーキングショー、例えばトーキングフィクション、童話、トレーニングコース等を聴取する場合が多くなっている。トーキングリソースのプロバイダは、通常、収録されたオーディオデータをサーバにアップロードして簡単なタイトルとイントロダクションを付けるにすぎず、このため、ユーザがこれらのリソースを検索する場合に、システムは、通常、タイトル及びイントロダクションによってしか検索できない。オーディオデータのコンテンツを全面、迅速に理解できないため、このような検索効果は、ユーザの要求を満足できない。例えば、ユーザからの照会命令におけるキーワードが、オーディオデータのタイトル又はイントロダクションに含まれない場合に、該オーディオデータは、検索されない。

本開示の例示的な実施例によれば、オーディオにおける重要語句を認識するための態様を提供する。

本開示の第１態様では、重要語句認識モデルをトレーニングするための方法を提供する。該方法は、第１のトレーニングテキストにおける単語の特徴情報を標識する第１のトレーニングデータを取得するステップを含む。該方法は、第２のトレーニングテキストにおける重要語句を標識する第２のトレーニングデータを取得するステップをさらに含む。該方法は、第１のトレーニングデータと第２のトレーニングデータとに基づいて重要語句認識モデルをトレーニングすることにより、オーディオデータにおける重要語句を認識するステップをさらに含む。

本開示の第２態様では、オーディオにおける重要語句を認識するための方法を提供する。該方法は、認識すべきオーディオデータを取得するステップを含む。該方法は、トレーニングされた重要語句認識モデルによりオーディオデータにおける重要語句を認識するステップをさらに含む。該重要語句認識モデルは、第１のトレーニングデータと第２のトレーニングデータとに基づいてトレーニングされ、ここで、第１のトレーニングデータは、第１のトレーニングテキストにおける単語の特徴情報を標識し、第２のトレーニングデータは、第２のトレーニングテキストにおける重要語句を標識する。

本開示の第３態様では、重要語句認識モデルをトレーニングするための装置を提供する。該装置は、第１のトレーニングテキストにおける単語の特徴情報を標識する第１のトレーニングデータを取得するように構成される第１の取得モジュールと、第２のトレーニングテキストにおける重要語句を標識する第２のトレーニングデータを取得するように構成される第２の取得モジュールと、第１のトレーニングデータと第２のトレーニングデータとに基づいて重要語句認識モデルをトレーニングすることにより、オーディオデータにおける重要語句を認識するモデルトレーニングモジュールとを含む。

本開示の第４態様では、オーディオにおける重要語句を認識するための装置を提供する。該装置は、認識すべきオーディオデータを取得するように構成されるオーディオ取得モジュールと、トレーニングされた重要語句認識モデルによりオーディオデータにおける重要語句を認識するが、重要語句認識モデルは、第１のトレーニングデータと第２のトレーニングデータとに基づいてトレーニングされ、第１のトレーニングデータは、第１のトレーニングテキストにおける単語の特徴情報を標識し、第２のトレーニングデータは、第２のトレーニングテキストにおける重要語句を標識するように構成される認識モジュールとを含む。

本開示の第５態様では、一つ又は複数のプロセッサ及び記憶装置を含む電子機器を提供する。記憶装置は、一つ又は複数のプログラムを記憶するためのものである。一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合に、一つ又は複数のプロセッサは、本開示の第１態様に係る方法を実行させる。

本開示の第６態様では、一つ又は複数のプロセッサ及び記憶装置を含む電子機器を提供する。記憶装置は、一つ又は複数のプログラムを記憶するためのものである。一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合に、一つ又は複数のプロセッサは、本開示の第２態様に係る方法を実行させる。

本開示の第７態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な媒体を提供し、該コンピュータプログラムがプロセッサによって実行される場合、本開示の第１態様に係る方法を実現する。

本開示の第８態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な媒体を提供し、該コンピュータプログラムがプロセッサによって実行される場合、本開示の第２態様に係る方法を実現する。

なお、発明内容部分に説明する内容は、本開示の実施例の肝心又は重要特徴を制限することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解され得る。

本発明の上述及び／又は付加的な特徴と利点は、下記の添付図面を参照した実施形態に対する説明により、明らかになり、理解されることが容易になる。
本開示の実施例を実現できる例示的なシステムを示す概略図である。本開示の実施例に係る重要語句認識モデルをトレーニングするための例示的な方法を示すフローチャートである。本開示の実施例に係るオーディオにおける重要語句を認識するための例示的な方法を示すフローチャートである。本開示の実施例に係る重要語句認識モデルをトレーニングするための装置を示す模式ブロック図である。本開示の実施例に係るオーディオにおける重要語句を認識するための装置を示す模式ブロック図である。本開示の一部の実施例を実現できる計算機器を示すブロック図である。

以下に、図面を参照しながら本開示の実施例をさらに詳しく説明する。図面には、本開示の一部の実施例を示したが、本開示は、種々な形式により実現されることができ、ここで説明した実施例に限定されると理解されてはならない。逆に、本開示を明らかで、完全に理解するために、これらの実施例を提供する。なお、本開示の図面及び実施例は、例示的な作用を奏し、本開示の保護範囲を限定するものと理解されてはならない。

本開示の実施例の説明において、「含む」の用語及びその類似用語とは、開放的に含まれることをいい、即ち、「含むがこれらに限定されない」ことを指す。なお、「基づく」は、「少なくとも部分に基づく」ことをいう。なお、「一実施例」又は「当該実施例」は、「少なくとも一つの実施例」をいう。「第１」、「第２」等は、異なる又は同一の対象を指す。以下、その他の明確及び暗黙的な定義があることもある。

上述のとおり、コンピュータ技術の発展とスマート端末の普及に伴い、スマートフォン又はスマートスピーカボックス等の端末機器を用いて種々なトーキングショー、例えばトーキングフィクション、童話、トレーニングコース等を聴取する場合が多くなっている。トーキングリソースのプロバイダは、通常、収録されたオーディオデータをサーバにアップロードして簡単なタイトルとイントロダクションを付けるにすぎず、このため、ユーザがこれらのリソースを検索する場合に、システムは、通常、タイトル及びイントロダクションによってしか検索できない。オーディオデータのコンテンツを全面、迅速に理解するために、このような検索効果は、ユーザの要求を満足できない。この場合に、如何にオーディオファイルのコンテンツを快速に理解することにより、そのキーワード又は重要語句を正確、効率的に認識するのは、早急な解決の待たれるチャレンジである。いくつかの従来態様では、人気オーディオに対して手動標記の方式でそのキーワード又は重要語句、例えば人気童話での主人公等を標記する。しかしながら、この態様は、効率が低く、大規模で適用することができない。さらに、従来態様では、テキストに対してキーワード又は重要語句を検索する態様がある。しかしながら、これらの態様は、オーディオデータに対して正確、効率的に検索することができない。

本開示の実施例によれば、オーディオにおける重要語句を認識するための態様を提供する。該態様は、自然言語処理されたトレーニングサンプルと手動序列標記されたトレーニングサンプルとの両方により、重要語句認識モデルをトレーニングする。該態様では、認識すべきオーディオデータを対応したテキストに変換するとともに、トレーニングされた重要語句認識モデルによりテキストにおけるキーワード又は重要語句を認識する。このように、該態様では、オーディオデータのコンテンツを正確、効率的に理解するとともに、その重要情報を抽出することができる。そのため、該態様では、種々なトーキング用途又はオーディオ検索システムに広く適用することができる。

以下、図面を参照しながら本開示の実施例を具体的に説明する。本発明において、「モデル」の用語は、トレーニングデータから対応した入力と出力との関連を学習することにより、トレーニング終了後、所定の入力に対して、対応した出力を生成することができる。なお、「モデル」は「ニューラルネット」、「学習モデル」又は「学習ネットワーク」とも呼ばれる。「重要語句」の用語とは、一のコンテンツに出現する一つ又は複数のキーワードをいう。「重要語句」は、ユーザの意図によって決定され、トーキングコンテンツでの主人公、所定のシーン、時間又はそれらの組み合わせが挙げられるが、これらに限定されない。

図１は、本開示の実施例を実現できる例示的なシステム１００を示す概略図である。システム１００は、全体的にモデルトレーニングサブシステム１１０とモデル応用サブシステム１２０とを含むことができる。なお、システム１００の構造と機能への説明は、例示的なものに過ぎず、本開示の範囲に対するいかなる限定を示唆することない。本開示の実施例は、さらに構造及び／又は機能の異なる環境に適用することができる。

モデルトレーニングサブシステム１１０において、モデルトレーニング装置１１１は、第１のトレーニングデータ１０１と第２のトレーニングデータ１０２を取得することにより、重要語句認識モデル１０３をトレーニングすることができる。例えば、第１のトレーニングデータ１０１は、第１のトレーニングテキストにおける単語の特徴情報を標識することができ、第２のトレーニングデータ１０２は、第２のトレーニングテキストにおける重要語句を標識することができる。

一部の実施例では、第１のトレーニングテキスト又は第２のトレーニングテキストは、任意のテキスト又はオーディオデータから変換して得られたテキストであってもよい。例えば、第１のトレーニングテキストは、重要語句認識モデル１０３をトレーニングする第１のオーディオサンプルから変換して得ることができる。第２のトレーニングテキストは、重要語句認識モデル１０３をトレーニングする第２のオーディオサンプルから変換して得ることができる。一部の実施例では、第１のオーディオサンプルと第２のオーディオサンプルは、同一又は異なるオーディオデータであってもよい。即ち、第１のトレーニングテキストと第２のトレーニングテキストは、同一又は異なってもよい。

一部の実施例では、第１のトレーニングテキストを前処理することにより、第１のトレーニングデータ１０１を生成することができる。例えば、第１のトレーニングテキストを文の区切り（例えば、種々な句読点等）により複数の文に分割した後、その各文に対して自然言語処理を行うことにより、文における各単語の特徴情報を取得することができる。例えば、単語の特徴情報は、該単語のテキスト、品詞、意味及び／又は文法情報等を含むことができる。特徴情報における品詞は、例えば該単語が名詞、動詞、形容詞、又は副詞等のいずれかに属することを示すことができる。特徴情報における意味は、例えば、該単語の具体的な意味、例えば人物、動作、環境等を示すことができる。特徴情報における文法情報は、該単語が文における主語、述語、目的語、限定語、副詞又は補語等のいずれかに属することを示すことができる。

一部の実施例では、第１のトレーニングテキストの取得と第１のトレーニングデータ１０１の生成の一部又は全体は、モデルトレーニング装置１１１により実行されてもよい。即ち、モデルトレーニング装置１１１は、任意のテキストを第１のトレーニングテキストとするか、又は音声認識技術で第１のオーディオサンプルを第１のトレーニングテキストに変換することができる。付加的又は選択的に、モデルトレーニング装置１１１は、第１のトレーニングテキストに基づいて第１のトレーニングデータ１０１を自己生成することができる。

選択的に、他の一部の実施例において、第１のトレーニングテキストの取得と第１のトレーニングデータ１０１の生成の一部又は全体は、他の装置により実行されることができる。この場合に、モデルトレーニング装置１１１は、例えば当該他の装置から、生成された第１のトレーニングデータ１０１を取得して、そのままモデルトレーニングに用いることができる。

一部の実施例では、第２のトレーニングテキストを前処理することにより、第２のトレーニングデータ１０２を生成することができる。例えば、第２のトレーニングテキストを文の区切り（例えば、種々な句読点等）により複数の文に分割した後、複数のタグで各文における重要語句を標識することができる。一部の実施例では、例えば、Ｂ（Ｂｅｇｉｎ）、Ｉ（Ｉｎｓｉｄｅ）、Ｏ（Ｏｕｔｓｉｄｅ）タグで文における重要語句を手動に標記することができ、ここでＢタグ（本発明で、「第１のタグ」とも記す）は、重要語句の先頭文字を標記するためのものであり、Ｉタグ（本発明で、「第２のタグ」とも記す）は、重要語句における先頭文字以外の他の文字を標記するためのものであり、Ｏタグ（本発明で、「第３のタグ」とも記す）は、文における重要語句に属しない他の文字を標記するためのものである。

例えば、標記される文が「白雪姫と七人の小人が森にいる」であり、且つ標記される重要語句が該文における主人公（即ち、「白雪姫」及び「七人の小人」）であると、「白」と「七」は、それぞれＢタグで標記され、「雪姫」と「人の小人」とは、それぞれＩタグで標記され、他の文字は、Ｏタグで標記される。「白雪姫と七人の小人が森にいる」を例とし、標記される重要語句は、該文におけるシーン（即ち、「森にいる」）であると、「森」は、Ｂタグで標記され、「にいる」は、Ｉタグで標記され、他の文字は、Ｏタグで標記される。

以上、ＢＩＯタグを例として、第２のトレーニングテキストにおける重要語句に対して手動に標記することを説明している。しかしながら、なお、これは説明のための例示に過ぎず、本発明を限定するものではない。本開示の他の一部の実施例では、ＢＩＯタグ以外の他のタグで第２のトレーニングテキストにおける重要語句を標記することもでき、本開示の範囲は、この態様で限定されない。

一部の実施例では、第２のトレーニングテキストの取得と第２のトレーニングデータ１０２の生成の一部又は全体は、モデルトレーニング装置１１１によって実行されてもよい。即ち、モデルトレーニング装置１１１は、任意のテキストを第２のトレーニングテキストとするか、又は音声認識技術で第２のオーディオサンプルを第２のトレーニングテキストに変換することができる。付加的又は選択的に、モデルトレーニング装置１１１は、第２のトレーニングテキストに基づいて第２のトレーニングデータ１０２を自己生成することができる。

選択的に、他の一部の実施例において、第２のトレーニングテキストの取得と第２のトレーニングデータ１０２の生成の一部又は全体は、他の装置によって実行されてもよい。この場合に、モデルトレーニング装置１１１は、例えば当該他の装置から生成された第２のトレーニングデータ１０２を取得して、そのままモデルトレーニングに用いることができる。

一部の実施例では、モデルトレーニング装置１１１は、第１のトレーニングデータ１０１と第２のトレーニングデータ１０２に基づいて重要語句認識モデル１０３をトレーニングすることができる。例えば、重要語句認識モデル１０３の例は、再帰ニューラルネットモデル（例えば、長期及び短期記憶（ＬＳＴＭ）モデル）、コンボリューショナルニューラルネットワーク（ＣＮＮ）モデル等を含むことができるが、これらに限定されない。トレーニングされた重要語句認識モデル１０３は、オーディオデータにおける重要語句を認識するためのものであってもよい。

図１に示すように、モデル応用サブシステム１２０では、モデル応用装置１２１は、認識すべきオーディオデータ１０４を取得し、トレーニングされた重要語句認識モデル１０３によりオーディオデータ１０４における重要語句を認識することができる。オーディオデータ１０４は、任意の認識すべきオーディオファイル、オーディオデータフロー等を含むことができる。例えば、モデル応用装置１２１は、認識すべきオーディオデータフローをリアルタイムに取得し、又は所定の記憶装置から認識すべきオーディオファイルをオーディオデータ１０４として取得することができる。

一部の実施例では、モデル応用装置１２１は、音声認識技術でオーディオデータ１０４をそれに対応したテキストに変換するとともに、得られたテキストを文の区切りにより一つ又は複数の文に分割することができる。その後、モデル応用装置１２１は、重要語句認識モデル１０３により各文における文字に対応する対応タグを決定し、対応タグに基づいて文における重要語句を認識することができる。

一部の実施例では、例えば重要語句認識モデル１０３をトレーニングするための第２のトレーニングデータ１０２において、ＢＩＯタグで第２のトレーニングテキストにおける重要語句を標記することができる。この場合に、モデル応用装置１２１は、重要語句認識モデル１０３を認識し、各文における各文字のタグをＢタグ、Ｉタグ及びＯタグの一つに決定することができる、ここで、Ｂタグは、該文字が重要語句の先頭文字であることを示し、Ｉタグは、該文字が重要語句における先頭文字以外の文字であることを示し、Ｏタグは、該文字が重要語句に属しないことを示すことができる。さらに、モデル応用装置１２１は、Ｂタグで標識された文字とＩタグで標識された文字の集合を重要語句として認識してもよい。選択的に、他の一部の実施例では、重要語句認識モデル１０３をトレーニングするための第２のトレーニングデータ１０２において、ＢＩＯタグ以外の複数の他のタグで第２のトレーニングテキストにおける重要語句を標記することもできる。この場合に、モデル応用装置１２１は、重要語句認識モデル１０３により各文における文字又は単語の対応タグを、例えば複数の他のタグの一つとして決定し、さらに決定されたタグで重要語句を認識することができる。

図２は、本開示の実施例に係る重要語句認識モデルをトレーニングするための例示的な方法２００を示すフローチャートである。例えば、方法２００は、図１に示すようなモデルトレーニング装置１１１によって実行されることができる。以下、図１を組み合わせて方法２００の各動作を詳しく説明する。なお、方法２００は、不図示の付加動作及び／又は図示を省略してもよい動作を含むことができる。本開示の範囲は、この態様で限定されない。

ブロック２１０で、モデルトレーニング装置１１１は、第１のトレーニングデータ１０１を取得する。例えば、第１のトレーニングデータ１０１は、第１のトレーニングテキストにおける単語の特徴情報を標識することができる。

一部の実施例では、第１のトレーニングテキストは取得されることができ、また第１のトレーニングテキストを前処理することにより第１のトレーニングデータ１０１を生成することができる。例えば、任意のテキストを第１のトレーニングテキストとして取得してもよい。また、重要語句認識モデル１０３をトレーニングするための第１のオーディオサンプルを取得するとともに、音声認識技術で第１のオーディオサンプルを第１のトレーニングテキストに変換することができる。一部の実施例では、第１のトレーニングデータ１０１は、文の区切りにより第１のトレーニングテキストを少なくとも一つの文に分割した後、自然言語処理技術で少なくとも一つの文における単語の特徴情報を決定することにより生成されることができる。例えば、単語の特徴情報は、該単語のテキスト、品詞、意味と文法情報の少なくとも一つを含むことができる。

ブロック２２０で、モデルトレーニング装置１１１は、第２のトレーニングデータ１０２を取得する。例えば、第２のトレーニングデータ１０２は、第２のトレーニングテキストにおける重要語句を標識することができる。ここでいう「重要語句」は、ユーザの意図に基づいて決定されることができ、その例は、第２のトレーニングテキストにおける主人公、所定のシーン、時間又はその組み合わせ等を含むが、これらに限定されない。

一部の実施例では、第２のトレーニングテキストは、取得されることができ、また第２のトレーニングテキストを前処理することにより、第２のトレーニングデータ１０２を生成することができる。例えば、任意のテキストを第２のトレーニングテキストとして取得することができる。また、重要語句認識モデル１０３をトレーニングするための第２のオーディオサンプルを取得するとともに、音声認識技術で第２のオーディオサンプルを第２のトレーニングテキストに変換することができる。一部の実施例では、第２のトレーニングデータ１０２は、文の区切りにより第２のトレーニングテキストを少なくとも一つの文に分割した後、複数のタグで少なくとも一つの文における重要語句を分割することにより生成されることができる。例えば、第１のタグで重要語句の先頭文字を表示することができ、第２のタグで重要語句での先頭文字に続く後続文字を標識することができ、第３のタグで文における重要語句に属しない文字を標識することができる。

ブロック２３０で、モデルトレーニング装置１１１は、第１のトレーニングデータ１０１と第２のトレーニングデータ１０２に基づいて重要語句認識モデル１０３をトレーニングする。例えば、重要語句認識モデル１０３の例は、再帰ニューラルネットモデル（例えば、長期及び短期記憶（ＬＳＴＭ）モデル）、コンボリューショナルニューラルネットワーク（ＣＮＮ）モデル等を含むが、これらに限定されない。トレーニングされた重要語句認識モデル１０３は、オーディオデータにおける重要語句を認識するためのものであってもよい。

図３は、本開示の実施例に係るオーディオにおける重要語句を認識するための方法３００を示すフローチャートである。例えば、方法３００は、図１に示すようなモデル応用装置１２１によって実行されることができる。以下、図１を組み合わせて方法３００の各動作を詳しく説明する。なお、方法３００は、不図示の付加動作及び／又は図示を省略してもよい動作を含むことができる。本開示の範囲は、この態様で限定されない。

ブロック３１０で、モデル応用装置１２１は、認識すべきオーディオデータ１０４を取得する。例えば、オーディオデータ１０４は、いかなる認識すべきオーディオファイル、オーディオデータフロー等を含むことができる。一部の実施例では、モデル応用装置１２１は、リアルタイムに認識すべきオーディオデータフローをオーディオデータ１０４として取得することができる。選択的に、モデル応用装置１２１は、所定記憶装置から認識すべきオーディオファイルをオーディオデータ１０４として取得することができる。

ブロック３２０で、モデル応用装置１２１は、トレーニングされた重要語句認識モデル１０３によりオーディオデータ１０４における重要語句を認識することができる。

一部の実施例では、モデル応用装置１２１は、音声認識技術でオーディオデータ１０４をそれに対応したテキストに変換するとともに、得られたテキストを文の区切りにより一つ又は複数の文に分割することができる。その後、モデル応用装置１２１は、重要語句認識モデル１０３により各文における文字に対応する対応タグを決定するとともに、対応タグに基づいて文における重要語句を認識することができる。

一部の実施例では、例えば、文字のタグは、該文字が重要語句の先頭文字であることを示す第１のタグと、該文字が重要語句における先頭文字に続く後続文字であることを示す第２のタグと、該文字が重要語句に属しないことを示す第３のタグと、の一つを含むことができる。一部の実施例では、モデル応用装置１２１は、第１のタグで標識された先頭文字と第２のタグで標識された後続文字との集合を重要語句として認識することができる。

以上の説明から分かるように、本開示の実施例は、オーディオにおける重要語句を認識するための態様を提出する。該態様では、自然言語処理されたトレーニングサンプルと手動序列標記されたトレーニングサンプルとの両方により、重要語句認識モデルをトレーニングする。該態様では、認識すべきオーディオデータを対応したテキストに変換し、またトレーニングされた重要語句認識モデルにより、テキストにおけるキーワード又は重要語句を認識することができる。このように、該態様は、オーディオデータのコンテンツを正確、効率的に理解するとともに、その重要情報を抽出することができる。そのため、該態様では、種々なトーキング用途又はオーディオ検索システムに広く適用することができる。

図４は、本開示の実施例に係る重要語句認識モデルをトレーニングするための装置４００を示す模式ブロック図である。図４に示すように、装置４００は、第１のトレーニングテキストにおける単語の特徴情報を標識する第１のトレーニングデータを取得するように構成される第１の取得モジュール４１０を含むことができる。装置４００は、第２のトレーニングテキストにおける重要語句を標識する第２のトレーニングデータを取得するように構成される第２の取得モジュール４２０をさらに含むことができる。さらに、装置４００は、第１のトレーニングデータと第２のトレーニングデータとに基づいて重要語句認識モデルをトレーニングすることにより、オーディオデータにおける重要語句を認識するように構成されるモデルトレーニングモジュール４３０をさらに含むことができる。

一部の実施例では、第１の取得モジュール４１０は、第１のトレーニングテキストを取得するように構成される第１の取得ユニットと、第１のトレーニングテキストを前処理することにより第１のトレーニングデータを生成するように構成される第１の前処理ユニットとを含む。

一部の実施例では、第１の取得ユニットは、さらに、重要語句認識モデルをトレーニングするための第１のオーディオサンプルを取得し、音声認識技術で第１のオーディオサンプルを第１のトレーニングテキストに変換するように構成される。

一部の実施例では、第１の前処理ユニットは、さらに第１のトレーニングテキストを少なくとも一つの文に分割し、自然言語処理技術で少なくとも一つの文における単語の特徴情報を決定するように構成される。

一部の実施例では、特徴情報は、該単語のテキストと、品詞と、意味と、文法情報とのうち少なくとも一つを含む。

一部の実施例では、第２の取得モジュール４２０は、第２のトレーニングテキストを取得するように構成される第２の取得ユニットと、第２のトレーニングテキストを前処理することにより第２のトレーニングデータを生成するように構成される第２の前処理ユニットとを含む。

一部の実施例では、第２の取得ユニットは、さらに、重要語句認識モデルをトレーニングするための第２のオーディオサンプルを取得し、音声認識技術で第２のオーディオサンプルを第２のトレーニングテキストに変換するように構成される。

一部の実施例では、第２の前処理ユニットは、さらに、第２のトレーニングテキストを少なくとも一つの文に分割し、複数のタグで少なくとも一つの文における重要語句を標識するように構成される。

一部の実施例では、第２の前処理ユニットは、さらに、第１のタグで重要語句の先頭文字を標識し、第２のタグで重要語句における先頭文字に続く後続文字を標識し、第３のタグで少なくとも一つの文における重要語句に属しない文字を標識するように構成される。

図５は、本開示の実施例に係るオーディオにおける重要語句を認識するための装置５００を示す模式ブロック図である。図５に示すように、装置５００は、認識すべきオーディオデータを取得するように構成されるオーディオ取得モジュール５１０を含むことができる。装置５００は、トレーニングされた重要語句認識モデルによりオーディオデータにおける重要語句を認識するように構成される認識モジュール５２０をさらに含むことができる。ここで、重要語句認識モデルは、第１のトレーニングデータと第２のトレーニングデータとに基づいてトレーニングされ、第１のトレーニングデータは、第１のトレーニングテキストにおける単語の特徴情報を標識し、第２のトレーニングデータは、第２のトレーニングテキストにおける重要語句を標識する。

一部の実施例では、認識モジュール５２０は、音声認識技術でオーディオデータを該オーディオデータに対応したテキストに変換するように構成されるデータ変換ユニットと、該テキストを少なくとも一つの文に分割するように構成されるテキスト分割ユニットと、重要語句認識モデルで少なくとも一つの文における文字に対応する対応タグを決定するように構成されるタグ決定ユニットと、対応タグに基づいてオーディオデータにおける重要語句を認識するように構成される認識ユニットとを含む。

一部の実施例では、対応タグは、該文字が重要語句の先頭文字であることを示す第１のタグと、該文字が重要語句における先頭文字に続く後続文字であることを示す第２のタグと、該文字が重要語句に属しないことを示す第３のタグと、のうち一つを含む。

一部の実施例では、認識ユニットは、さらに、第１のタグで標識された先頭文字と第２のタグで標識された後続文字との集合を重要語句として認識するように構成される。

図６は、本開示の実施例を実現するための例示的な機器６００を示す模式ブロック図である。機器６００は、図１に記載のようなモデルトレーニング装置１１１及び／又はモデル応用装置１２１を実現するためのものであってもよい。図に示すように、コンピュータシステム６００は、ＲＯＭ６０２に記憶されているコンピュータプログラム命令、又は記憶ユニット６０８からＲＡＭ６０３にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる中央処理装置（ＣＰＵ）６０１を含む。ＲＡＭ６０３には、システム６００の操作に必要な各種のプログラムとデータがさらに記憶されている。ＣＰＵ６０１と、ＲＯＭ６０２と、ＲＡＭ６０３とは、バス６０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース６０５もバス６０４に接続される。

機器６００における複数の部材はＩ／Ｏインタフェース６０５に接続され、前記複数の部材は、例えばキーボード、マウス等の入力ユニット６０６と、例えば種々なディスプレイ、スピーカ等の出力ユニット６０７と、例えば磁気ディスク、光ディスク等の記憶ユニット６０８と、例えばネットワークカード、モデム、無線通信送受信機等の通信ユニット６０９と、を含む。通信ユニット６０９は、機器６００が例えばインターネットのようなコンピュータネット及び／又は種々なキャリアネットワークによりその他の機器に情報／データを交換することを許可する。

処理ユニット６０１は、上述の各方法及び処理、例えば方法２００、及び／又は３００を実行する。例えば、一部の実施例では、方法２００、及び／又は３００は、コンピュータソフトウエアプログラムとして実現されることができ、機器読取可能な媒体、例えば記憶ユニット６０８に有形的に含まれる。一部の実施例では、コンピュータプログラムの一部又は全ては、ＲＯＭ６０２及び／又は通信ユニット６０９を経て、機器６００にロード及び／又はインストールされる。コンピュータプログラムがＲＡＭ６０３にロードされＣＰＵ６０１によって実行される場合に、上述の方法２００、及び／又は３００の一つ又は複数のステップに実行される。或いは、その他の実施例では、ＣＰＵ６０１は、その他の任意の適当な方式（例えば、ファームウェアを経る）により方法２００、及び／又は３００を実行されるように構成される。

本開示で、上記した機能は、少なくとも部分的に一つ又は複数のハードウェア論理装置によって実行されることができる。例えば、非限定的に、使用可能なハードウェア論理装置としては、プログラム可能なゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑プログラム可能論理装置（ＣＰＬＤ）等が挙げられる。

本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせにより記述されることができる。これらのプログラムコードは、汎用コンピュータ、専門コンピュータ又はその他のプログラミングデータ処理装置のプロセッサ又は制御器に提供し、プログラムコードがプロセッサ又は制御器によって実行される場合に、フローチャート及び／又はブロック図に規定の機能／操作を実施させることができる。プログラムコードは、完全に機器で実行されてもよく、部分に機器で実行されてもよく、独立のパッケージとして部分に機器で実行されるとともに、部分にリモート機器で実行されてもよく、又は完全にリモート機器又はサーバで実行されてもよい。

本開示の説明において、機器読取可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は機器の使用、又は命令実行システム、装置又は機器との併用に提供されるプログラムを含み、又は記憶する。機器読取可能な媒体は、機器読取可能な信号媒体又は機器読取可能な記憶媒体であってもよい。機器読取可能な媒体は、電子、磁気、光学、電磁、赤外線、若しくは半導体のシステム、装置、若しくは機器、又は前述の任意の適切な組み合わせを含むことができるがこれらに限定されない。機器読取可能な記憶媒体のさらなる具体例として、１つ若しくは複数のワイヤーを有する電気的接続、携帯型フロッピー（登録商標）ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能ＲＯＭ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前述の任意の組み合わせを含む。

更に、特定の順番で各操作を説明したが、このような操作を、示される特定の順番又は順位で実行することが求められ、又は図示した操作の全てを実行して所望の結果を取得することが求められる。一定の環境において、複数の任務と並列処理が有利である可能性がある。同様に、以上の説明には、若干の具体的な実現詳細を含むが、本開示の範囲を限定するものと理解されてはならない。単独の実施例の前後に説明したある特徴は、一つの実現に組み合わせて実現されることができる。逆に、一つの実現の前後に説明した種々な特徴は、単独又は任意の適合のサブコンビネーションとして複数の実現に実現されることができる。

構造特徴及び／又は方法論理動作を特定した言語により、本対象を説明したが、特許請求の範囲に限定される対象は、上記した特定の特徴又は動作に限らない。逆に、上記した特定特徴と動作は、特許請求の範囲の例を実現するためのものに過ぎない。

Claims

第１のトレーニングテキストにおける単語の特徴情報を標識する第１のトレーニングデータを取得するステップと、
第２のトレーニングテキストにおける、主人公、所定のシーン、時間又はそれらの組み合わせを含む重要語句を標識する第２のトレーニングデータを取得するステップと、
前記第１のトレーニングデータと前記第２のトレーニングデータとに基づいて重要語句認識モデルをトレーニングすることにより、オーディオデータにおける重要語句を認識するステップと、をコンピュータが行うことを含む、
ことを特徴とする重要語句認識モデルをトレーニングするための方法。
前記第１のトレーニングデータを取得するステップは、
前記第１のトレーニングテキストを取得するステップと、
前記第１のトレーニングテキストを前処理することにより前記第１のトレーニングデータを生成するステップと、を含む、
ことを特徴とする請求項１に記載の重要語句認識モデルをトレーニングするための方法。
前記第１のトレーニングテキストを取得するステップは、
前記重要語句認識モデルをトレーニングするための第１のオーディオサンプルを取得するステップと、
音声認識技術で前記第１のオーディオサンプルを前記第１のトレーニングテキストに変換するステップと、を含む、
ことを特徴とする請求項２に記載の重要語句認識モデルをトレーニングするための方法。
前記第１のトレーニングテキストを前処理するステップは、
前記第１のトレーニングテキストを少なくとも一つの文に分割するステップと、
自然言語処理技術で前記少なくとも一つの文における前記単語の前記特徴情報を決定するステップと、を含む、
ことを特徴とする請求項２に記載の重要語句認識モデルをトレーニングするための方法。
前記特徴情報は、前記単語のテキストと、品詞と、意味と、文法情報とのうち少なくとも一つを含む、
ことを特徴とする請求項４に記載の重要語句認識モデルをトレーニングするための方法。
前記第２のトレーニングデータを取得するステップは、
前記第２のトレーニングテキストを取得するステップと、
前記第２のトレーニングテキストを前処理することにより、前記第２のトレーニングデータを生成するステップと、を含む、
ことを特徴とする請求項１に記載の重要語句認識モデルをトレーニングするための方法。
前記第２のトレーニングテキストを取得するステップは、
前記重要語句認識モデルをトレーニングするための第２のオーディオサンプルを取得するステップと、
音声認識技術で前記第２のオーディオサンプルを前記第２のトレーニングテキストに変換するステップと、を含む、
ことを特徴とする請求項６に記載の重要語句認識モデルをトレーニングするための方法。
前記第２のトレーニングテキストを前処理するステップは、
前記第２のトレーニングテキストを少なくとも一つの文に分割するステップと、
複数のタグで前記少なくとも一つの文における前記重要語句を標識するステップと、を含む、
ことを特徴とする請求項６に記載の重要語句認識モデルをトレーニングするための方法。
複数のタグで前記少なくとも一つの文における前記重要語句を標識するステップは、
第１のタグで前記重要語句の先頭文字を標識するステップと、
第２のタグで前記重要語句における前記先頭文字に続く後続文字を標識するステップと、
第３のタグで前記少なくとも一つの文における前記重要語句に属しない文字を標識するステップと、を含む、
ことを特徴とする請求項８に記載の重要語句認識モデルをトレーニングするための方法。
認識すべきオーディオデータを取得するステップと、
トレーニングされた重要語句認識モデルにより前記オーディオデータにおける重要語句を認識するステップと、をコンピュータが行うことを含み、
前記重要語句認識モデルは、第１のトレーニングデータと第２のトレーニングデータとに基づいてトレーニングされ、
前記第１のトレーニングデータは、第１のトレーニングテキストにおける単語の特徴情報を標識し、
前記第２のトレーニングデータは、第２のトレーニングテキストにおける重要語句を標識し、
前記重要語句は、主人公、所定のシーン、時間又はそれらの組み合わせを含む、
ことを特徴とするオーディオにおける重要語句を認識するための方法。
前記オーディオデータにおける重要語句を認識するステップは、
音声認識技術で前記オーディオデータを前記オーディオデータに対応したテキストに変換するステップと、
前記テキストを少なくとも一つの文に分割するステップと、
前記重要語句認識モデルで前記少なくとも一つの文における文字に対応する対応タグを決定するステップと、
前記対応タグに基づいて前記オーディオデータにおける重要語句を認識するステップと、を含む、
ことを特徴とする請求項１０に記載のオーディオにおける重要語句を認識するための方法。
前記対応タグは、
前記文字が前記重要語句の先頭文字であることを示す第１のタグと、
前記文字が前記重要語句における前記先頭文字に続く後続文字であることを示す第２のタグと、
前記文字が前記重要語句に属しないことを示す第３のタグと、のうち一つを含む、
ことを特徴とする請求項１１に記載のオーディオにおける重要語句を認識するための方法。
前記対応タグに基づいて前記オーディオデータにおける重要語句を認識するステップは、
前記第１のタグで標識された前記先頭文字と前記第２のタグで標識された前記後続文字との集合を前記重要語句として認識するステップを含む、
ことを特徴とする請求項１２に記載のオーディオにおける重要語句を認識するための方法。
第１のトレーニングテキストにおける単語の特徴情報を標識する第１のトレーニングデータを取得するように構成される第１の取得モジュールと、
第２のトレーニングテキストにおける、主人公、所定のシーン、時間又はそれらの組み合わせを含む重要語句を標識する第２のトレーニングデータを取得するように構成される第２の取得モジュールと、
前記第１のトレーニングデータと前記第２のトレーニングデータとに基づいて重要語句認識モデルをトレーニングすることにより、オーディオデータにおける重要語句を認識するように構成されるモデルトレーニングモジュールと、を含む、
ことを特徴とする重要語句認識モデルをトレーニングするための装置。
前記第１の取得モジュールは、
前記第１のトレーニングテキストを取得するように構成される第１の取得ユニットと、
前記第１のトレーニングテキストを前処理することにより前記第１のトレーニングデータを生成する第１の前処理ユニットと、を含む、
ことを特徴とする請求項１４に記載の重要語句認識モデルをトレーニングするための装置。
前記第１の取得ユニットは、さらに、
前記重要語句認識モデルをトレーニングするための第１のオーディオサンプルを取得し、
音声認識技術で前記第１のオーディオサンプルを前記第１のトレーニングテキストに変換するように構成される、
ことを特徴とする請求項１５に記載の重要語句認識モデルをトレーニングするための装置。
前記第１の前処理ユニットは、さらに、
前記第１のトレーニングテキストを少なくとも一つの文に分割し、
自然言語処理技術で前記少なくとも一つの文における前記単語の前記特徴情報を決定するように構成される、
ことを特徴とする請求項１５に記載の重要語句認識モデルをトレーニングするための装置。
前記特徴情報は、前記単語のテキストと、品詞と、意味と、文法情報とのうち少なくとも一つを含む、
ことを特徴とする請求項１７に記載の重要語句認識モデルをトレーニングするための装置。
前記第２の取得モジュールは、
前記第２のトレーニングテキストを取得するように構成される第２の取得ユニットと、
前記第２のトレーニングテキストを前処理することにより、前記第２のトレーニングデータを生成するように構成される第２の前処理ユニットと、を含む、
ことを特徴とする請求項１４に記載の重要語句認識モデルをトレーニングするための装置。
前記第２の取得ユニットは、さらに、
前記重要語句認識モデルをトレーニングするための第２のオーディオサンプルを取得し、
音声認識技術で前記第２のオーディオサンプルを前記第２のトレーニングテキストに変換するように構成される、
ことを特徴とする請求項１９に記載の重要語句認識モデルをトレーニングするための装置。
前記第２の前処理ユニットは、さらに、
前記第２のトレーニングテキストを少なくとも一つの文に分割し、
複数のタグで前記少なくとも一つの文における前記重要語句を標識するように構成される、
ことを特徴とする請求項１９に記載の重要語句認識モデルをトレーニングするための装置。
前記第２の前処理ユニットは、さらに、
第１のタグで前記重要語句の先頭文字を標識し、
第２のタグで前記重要語句における前記先頭文字に続く後続文字を標識し、
第３のタグで前記少なくとも一つの文における前記重要語句に属しない文字を標識するように構成される、
ことを特徴とする請求項２１に記載の重要語句認識モデルをトレーニングするための装置。
認識すべきオーディオデータを取得するように構成されるオーディオ取得モジュールと、
トレーニングされた重要語句認識モデルにより前記オーディオデータにおける重要語句を認識するように構成される認識モジュールと、を含み、
前記重要語句認識モデルは、第１のトレーニングデータと第２のトレーニングデータとに基づいてトレーニングされ、
前記第１のトレーニングデータは、第１のトレーニングテキストにおける単語の特徴情報を標識し、
前記第２のトレーニングデータは、第２のトレーニングテキストにおける重要語句を標識し、
前記重要語句は、主人公、所定のシーン、時間又はそれらの組み合わせを含む、
ことを特徴とするオーディオにおける重要語句を認識するための装置。
前記認識モジュールは、
音声認識技術で前記オーディオデータを前記オーディオデータに対応したテキストに変換するように構成されるデータ変換ユニットと、
前記テキストを少なくとも一つの文に分割するように構成されるテキスト分割ユニットと、
前記重要語句認識モデルで前記少なくとも一つの文における文字に対応する対応タグを決定するように構成されるタグ決定ユニットと、
前記対応タグに基づいて前記オーディオデータにおける重要語句を認識するように構成される認識ユニットと、を含む、
ことを特徴とする請求項２３に記載のオーディオにおける重要語句を認識するための装置。
前記対応タグは、
前記文字が前記重要語句の先頭文字であることを示す第１のタグと、
前記文字が前記重要語句における前記先頭文字に続く後続文字であることを示す第２のタグと、
前記文字が前記重要語句に属しないことを示す第３のタグと、のうち一つを含む、
ことを特徴とする請求項２４に記載のオーディオにおける重要語句を認識するための装置。
前記認識ユニットは、さらに、
前記第１のタグで標識された前記先頭文字と前記第２のタグで標識された前記後続文字との集合を前記重要語句として認識するように構成される、
ことを特徴とする請求項２５に記載のオーディオにおける重要語句を認識するための装置。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するための記憶装置と、を含み、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合に、前記一つ又は複数のプロセッサが請求項１〜９のいずれかに記載の方法を実現する、
ことを特徴とする電子機器。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するための記憶装置と、を含み、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合に、前記一つ又は複数のプロセッサが請求項１０〜１３のいずれかに記載の方法を実現する、
ことを特徴とする電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される場合に、請求項１〜９のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される場合に、請求項１０〜１３のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。