JP7333490B1

JP7333490B1 - 音声信号に関連するコンテンツを決定する方法、コンピューター可読保存媒体に保存されたコンピュータープログラム及びコンピューティング装置

Info

Publication number: JP7333490B1
Application number: JP2023076530A
Authority: JP
Inventors: ヒョンウキム; スンホクァク
Original assignee: アクションパワーコーポレイション
Priority date: 2022-10-13
Filing date: 2023-05-08
Publication date: 2023-08-24
Anticipated expiration: 2043-05-08
Also published as: US20240126802A1; KR102486120B1; EP4354428A1; US11971920B1; JP2024058553A

Abstract

【課題】完全な音声認識結果テキストの中から、コア単語であるターゲット単語を決定する方法、プログラム及び装置を提供する。【解決手段】コンピューティング装置において実行される、音声信号に関連するコンテンツを決定する方法であって、音声信号を変換してテキスト情報を生成する段階Ｓ１１０、複数のターゲット単語候補を決定する段階Ｓ１２０、複数のターゲット単語候補と生成されたテキスト情報との比較に基づき、複数のターゲット単語候補の中からターゲット単語を決定する段階Ｓ１３０及び前記ターゲット単語に関連するコンテンツを決定する段階Ｓ１４０を含む。【選択図】図５

Description

本発明は、音声信号に関連するコンテンツを決定する方法（ＭＥＴＨＯＤＦＯＲＤＥＴＥＲＭＩＮＩＮＧＣＯＮＴＥＮＴＡＳＳＯＣＩＡＴＥＤＷＩＴＨＶＯＩＣＥＳＩＧＮＡＬ）に係り、より具体的には、音声認識結果テキスト等に基づき、関連コンテンツを決定し、決定されたコンテンツを提案する技術に関する。

音声認識（ＳＴＴ；Ｓｐｅｅｃｈ－ｔｏ－Ｔｅｘｔ）とは、音声信号をテキストに変換する技術である。つまり、音声認識とは、音声信号を分析し、音声信号に対応するテキストを出力する技術である。

このような音声認識により出力された結果テキストは、完全なものではないことが多い。例えば、音声認識結果テキストは、誤字や非文等を含む場合がある。

従って、このような音声認識結果テキストに基づいて関連コンテンツを決定するという手法は、精度が低く、技術的に具現化することも困難である。例えば、音声認識結果テキストに基づき、関連コンテンツを決定するためには、音声認識結果テキストの中に、コア単語やターゲット単語が含まれているか否かを決定しなければならないが、音声認識結果テキストの不完全性により，このようなコア単語やターゲット単語が含まれているか否かを決定することが困難であるという問題点が存在する。

大韓民国公開特許第１０－２０２２－００５１５９２号（２０２２年４月２６日）は、インターネット講義提案システム及びその動作方法について開示している。

本開示は、不完全な音声認識（ＳＴＴ；Ｓｐｅｅｃｈ－ｔｏ－Ｔｅｘｔ）結果テキストの中から、コア単語であるターゲット単語を決定し、これに基づき、関連コンテンツを提案する方法を提供することを目的とする。

しかし、本開示が解決しようとする技術的課題は、前述の技術的課題に限られるわけではなく、以下に説明する内容から、当業者にとって自明な範囲内において、多様な技術的課題が含まれることが含まれるものとする。

前述の課題を実現するための本開示の一実施例に基づき、コンピューティング装置により実行される方法が開示される。前記方法は、音声信号を変換してテキスト情報を生成する段階、複数のターゲット単語候補を決定する段階、前記複数のターゲット単語候補と前記生成されたテキスト情報との比較に基づき、前記複数のターゲット単語候補の中からターゲット単語を決定する段階、及び前記ターゲット単語に関連するコンテンツを決定する段階を含むことが可能である。

一実施例において、前記複数のターゲット単語を決定する段階は、前記音声信号に関連するユーザー情報に基づき、前記複数のターゲット単語候補を決定する段階と、前記生成されたテキスト情報から抽出されたコア単語（ｋｅｙｗｏｒｄ）の情報に基づき、前記複数のターゲット単語候補を決定する段階とのうち、少なくとも１つの段階を含むことが可能である。

一実施例において、前記音声信号に関連するユーザー情報に基づき、前記複数のターゲット単語候補を決定する段階は、前記ユーザーが使った音声認識モデルのタイプに係る情報に基づき、前記複数のターゲット単語候補を決定する段階を含むことが可能である。

一実施例において、前記生成されたテキスト情報から抽出されたコア単語に係る情報に基づき、前記複数のターゲット単語候補を決定する段階は、前記生成されたテキスト情報における単語の出現頻度を分析し、複数のコア単語を決定する段階、及び前記複数のコア単語に基づき、前記複数のターゲット単語候補を決定する段階を含むことが可能である。

一実施例において、前記生成されたテキスト情報における単語の出現頻度を分析し、複数のターゲット単語を抽出する段階は、話題（ｔｏｐｉｃ）情報に基づき、前記生成されたテキスト情報を複数のテキスト部分に分ける段階、及び前記分けられた複数のテキスト部分の各々における出現頻度を分析し、複数のコア単語を抽出する段階を含むことが可能である。

一実施例において、前記方法は、前記テキスト情報の中に、コンテンツソース（ｓｏｕｒｃｅ）に係る単語又はコンテンツに関連する時間に係る単語が含まれている場合、前記複数のターゲット単語候補に含まれているか否かとは関係なく、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を、前記ターゲット単語としてすぐに決定する段階をさらに含むことが可能である。

一実施例において、前記複数のターゲット単語候補からターゲット単語を決定する段階は、前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を演算する段階、及び前記類似度演算結果に基づき、前記ターゲット単語候補の中から前記ターゲット単語を決定する段階を含むことが可能である。

一実施例において、前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を演算する段階は、前記複数のターゲット単語候補の各々に対し、前記テキスト情報のすべての単語との編集距離を演算する段階、及び各ターゲット単語候補に対して演算された編集距離に基づき、各ターゲット単語候補の類似度を演算する段階を含むことが可能である。

一実施例において、各ターゲット単語候補に対して演算された編集距離に基づき、各ターゲット単語候補の類似度を演算する段階は、各ターゲット単語候補に対して演算された編集距離をしきい値と比較する段階、及び前記演算された編集距離が前記しきい値未満の場合、類似度に重みをつける段階を含むことが可能である。

一実施例において、前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を演算する段階は、前記複数のターゲット単語候補がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含む場合、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語に対しては、直接的な演算を行わずに最も高い類似度を付与する段階を含むことが可能である。

一実施例において、前記ターゲット単語に関連するコンテンツを決定する段階は、複数のコンテンツ候補を決定する段階、及び前記複数のコンテンツ候補の中から、前記ターゲット単語に関連するコンテンツを決定する段階を含むことが可能である。

一実施例において、前記複数のコンテンツ候補を決定する段階は、ターゲット単語の集合がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含む場合、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語に基づき、前記複数のコンテンツ候補を決定する段階を含み、前記複数のコンテンツ候補の中から前記ターゲット単語に関連するコンテンツを決定する段階は、前記複数のコンテンツ候補の中から前記ターゲット単語の集合の他のターゲット単語に関連するコンテンツを決定する段階を含むことが可能である。

一実施例において、前記複数のコンテンツ候補を決定する段階は、ターゲット単語の集合がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含まない場合、ユーザーアカウントやユーザーディバイスに関連するコンテンツに基づき、前記複数のコンテンツ候補を決定する段階を含み、前記複数のコンテンツ候補の中から前記ターゲット単語に関連するコンテンツを決定する段階は、前記複数のコンテンツ候補の中から前記ターゲット単語の集合の少なくとも１つのターゲット単語に関連するコンテンツを決定する段階を含むことが可能である。

前述のような課題を実現するための本開示の一実施例に基づき、コンピューター可読保存媒体に保存されたコンピュータープログラムが開示される。前記コンピュータープログラムは、１つ以上のプロセッサーにおいて実行される場合、音声信号に関連するコンテンツを決定するための以下の動作を実行するが、前記動作は、音声信号を変換してテキスト情報を生成する動作、複数のターゲット単語候補を決定する動作、前記複数のターゲット単語候補と前記生成されたテキスト情報との比較に基づき、前記複数のターゲット単語候補の中からターゲット単語を決定する動作、及び前記ターゲット単語に関連するコンテンツを決定する動作を含むことが可能である。

前述の課題を解決するための本開示の一実施例に基づき、コンピューティング装置が開示される。前記装置は、少なくとも１つのプロセッサー及びメモリーを含み、前記少なくとも１つのプロセッサーは、音声信号を変換してテキスト情報を生成し、複数のターゲット単語候補を決定し、前記複数のターゲット単語候補と前記生成されたテキスト情報との比較に基づき、前記複数のターゲット単語候補の中からターゲット単語を決定し、前記ターゲット単語に関連するコンテンツを決定するように構成されることが可能である。

本開示は、音声信号に関連するコンテンツを明確に決定し、提案する技術を提供できる。例えば、本開示は、音声信号に基づき、不完全な音声認識結果テキストが出力されても、音声信号又は出力されたテキストに合わせて正確な関連コンテンツを決定し提案することが可能である。

一方、本開示の効果は、前述の技術的課題に限られるわけではなく、以下に説明する内容から、当業者にとって自明な範囲内において、多様な効果が含まれることが可能である。

図１は、本開示の一実施例における、音声入力信号に関連するコンテンツを決定するためのコンピューティング装置のブロック構成図である。図２は、本開示の一実施例におけるネットワーク関数を示す概略図である。図３は、本開示の一実施例における、音声認識に関連するコンテンツを決定する複数のモジュールのブロック構成図である。図４は、本開示の一実施例における、音声信号に関連するコンテンツを決定するための動作に係るユーザーインターフェースの概略図である。図５は、本開示の一実施例における、音声信号に関連するコンテンツを決定する方法に係る概略図である。図６は、本開示の一実施例を具現化できる例示的なコンピューティング環境に係る簡略かつ一般的な概略図である。

多様な実施例が以下に図面を参照しながら説明されるが、図面を通して類似の図面番号は類似の構成要素を表すために使われる。本明細書において多様な説明が本開示に対する理解を容易にするために示される。しかし、これらの実施例がこれらの具体的な説明がなくても間違いなく実施されることができる。

本明細書において、「コンポーネント」、「モジュール」、「システム」等の用語は、コンピューター関連エンティティ、ハードウェア、ファームウェア、ソフトウェア、ソフトウェアとハードウェアとの組み合わせ、またはソフトウェアの実行を指す。例えば、コンポーネントは、プロセッサー上で実行される処理手順（ｐｒｏｃｅｄｕｒｅ）、プロセッサー、オブジェクト、実行スレッド、プログラム、及び／またはコンピューターになり得るが、これらに限定されるものではない。例えば、コンピューティング装置で実行されるアプリケーションとコンピューティング装置は、両方ともコンポーネントになり得る。１つ以上のコンポーネントは、プロセッサー及び／または実行スレッドの中に常駐することができ、１つのコンポーネントは１つのコンピューターの中でローカル化されることができ、または２つ以上のコンピューターに配分されることもできる。また、このようなコンポーネントは、その内部に保存されている多様なデータ構造を持つ、多様なコンピューター可読媒体から実行することができる。コンポーネントは、例えば１つ以上のデータパケットを持つ信号（例えば、ローカルシステム、分散システムにおいて他のコンポーネントと相互作用する１つのコンポーネントからのデータ及び／または信号を通じて、他のシステムと、インターネットのようなネットワークを介して伝送されるデータ）によってローカル及び／または遠隔処理等を通じて通信することができる。

用語「または」は、排他的な「または」ではなく、内包的な「または」を意味する意図で使われる。つまり、特に特定されておらず、文脈上明確ではない場合、「ＸはＡまたはＢを利用する」は、自然な内包的置換のうち１つを意味するものとする。つまり、ＸがＡを利用したり、ＸがＢを利用したり、またはＸがＡ及びＢの両方を利用する場合、「ＸはＡまたはＢを利用する」は、これらのいずれにも当てはまるとすることができる。また、本明細書における「及び／または」という用語は、取り挙げられた関連アイテムのうち、１つ以上のアイテムの可能なすべての組み合わせを指し、含むものと理解されるべきである。

また、述語としての「含む（含める）」及び／または修飾語として「含む（含める）」という用語は、当該特徴及び／または構成要素が存在することを意味するものと理解されるべきである。ただし、述語としての「含む（含める）」及び／または修飾語として「含む（含める）」という用語は、１つ以上の他のさらなる特徴、構成要素及び／またはこれらのグループが存在すること、または追加されることを排除しないものと理解されるべきである。また、特に数が特定されていない場合や、単数の形を示すことが文脈上明確でない場合、本明細書と請求範囲において単数は、一般的に「１つまたはそれ以上」を意味するものと解釈されるべきである。

そして、「Ａ又はＢのうち少なくとも１つ」という用語については、「Ａだけを含む場合」、「Ｂだけを含む場合」、「ＡとＢの組み合わせの場合」を意味するものと解釈されたい。

当業者は、さらに、ここに開示される実施例に係るものとして説明された多様な例示的論理的ブロック、構成、モジュール、回路、手段、ロジック及びアルゴリズム段階が、電子ハードウェア、コンピューターソフトウェア、またはその両方の組み合わせによって実現されることができることを認識すべきである。ハードウェアとソフトウェアとの相互交換性を明確に例示するために、多様な例示的コンポーネント、ブロック、構成、手段、ロジック、モジュール、回路及び段階が、それらの機能性の側面で一般的に上述された。そのような機能性がハードウェアとして実装されるか或いはソフトウェアとして実装されるかは、全般的なシステムに係る特定のアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）及び設計制限によって決まる。熟練した技術者は、個々の特定アプリケーションのために多様な方法で説明された機能性を実現できる。ただし、そのような実現に係る決定が本開示内容の領域を逸脱するものと解釈されてはならない。

ここに示す実施例に係る説明は、本開示の技術分野において通常の知識を持つ者が本発明を利用したり、または実施できるように提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者にとっては明確であり、ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることができる。従って、本開示はここに示す実施例によって限定されるものではなく、ここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。

本開示において、ネットワーク関数と人工神経回路網及びニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）は相互交換可能に使用することができる。

図１は、本開示の一実施例における、音声入力信号に関連するコンテンツを決定するためのコンピューティング装置のブロック構成図である。

図１に図示されたコンピューティング装置（１００）の構成は、簡略化して示した例示に過ぎない。本開示の一実施例において、コンピューティング装置（１００）には、コンピューティング装置（１００）のコンピューティング環境を実装するための他の構成が含まれることが可能であり、開示されている構成のうち一部だけでコンピューティング装置（１００）を構成することも可能である。

コンピューティング装置（１００）は、プロセッサー（１１０）、メモリー（１３０）、ネットワーク部（１５０）を含むことができる。

プロセッサー（１１０）は、１つ以上のコアで構成されることが可能であり、コンピューティング中央処理装置（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、汎用グラフィック処理装置（ＧＰＧＰＵ：ｇｅｎｅｒａｌｐｕｒｐｏｓｅｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、テンサー処理装置（ＴＰＵ：ｔｅｎｓｏｒｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）等のデータ分析、ディープラーニングのためのプロセッサーを含むことができる。プロセッサー（１１０）は、メモリー（１３０）に保存されたコンピュータープログラムを読み取り、本開示の一実施例における機械学習のためのデータ処理を実行することができる。本開示の一実施例に基づき、プロセッサー（１１０）は、ニューラルネットワークの学習のための演算を行うことができる。プロセッサー（１１０）は、ディープラーニング（ＤＬ：ｄｅｅｐｌｅａｒｎｉｎｇ）において、学習のための入力データの処理、入力データからのフィーチャーの抽出、誤差計算、逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を利用したニューラルネットワークの重みの更新等のニューラルネットワークの学習のための計算を実行することができる。プロセッサー（１１０）のＣＰＵとＧＰＧＰＵとＴＰＵとのうち、少なくとも１つが、ネットワーク関数の学習を処理できる。例えば、ＣＰＵとＧＰＧＰＵとがともにネットワーク関数の学習やネットワーク関数を利用したデータの分類を行うことができる。なお、本開示の一実施例において、複数のコンピューティング装置のプロセッサーを一緒に使ってネットワーク関数の学習やネットワーク関数を利用したデータ分類を行うことができる。また、本開示の一実施例における、コンピューティング装置において実行されるコンピュータープログラムは、ＣＰＵ、ＧＰＧＰＵ又はＴＰＵで実行可能なプログラムになり得る。

本開示の一実施例において、プロセッサー（１１０）は、音声信号に関連するユーザー情報や音声認識（ＳＴＴ）結果テキストから、関連するコンテンツを提案することが可能である。例えば、プロセッサー（１１０）は、（１）入力されたオーディオ（音声信号）に対しＳＴＴを実行（例えば、ビデオファイルの場合、オーディオと映像を分離し、オーディオに対して実行）し、（２）ＳＴＴ結果テキストに対する話題分割（ｔｏｐｉｃｓｅｇｍｅｎｔａｔｉｏｎ）及びキーワード抽出（ｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎ）を実行することでターゲット単語候補を決定したり、又は、ユーザーアカウント情報（例えば、職種、ユーザー辞書等）に基づき、当該オーディオに係るターゲット単語候補を決定し、（３）決定された複数のターゲット単語候補を音声認識（ＳＴＴ）結果テキストと比較し、編集距離がしきい値未満の単語が検出されると、当該ターゲット単語候補をターゲット単語（＝コア単語）として決定し、（４）ターゲット単語に関連するコンテンツを提案することで音声認識（ＳＴＴ）結果に関連するコンテンツを提案できる。

本開示の一実施例において、メモリー（１３０）は、プロセッサー（１１０）が生成したり、決定した任意の形態の情報及びネットワーク部（５５０）が受信した任意の形態の情報を保存することができる。

本開示の一実施例において、メモリー（１３０）は、フラッシュメモリータイプ（ｆｌａｓｈｍｅｍｏｒｙｔｙｐｅ）、ハードディスクタイプ（ｈａｒｄｄｉｓｋｔｙｐｅ）、マルチメディアカードマイクロタイプ（ｍｕｌｔｉｍｅｄｉａｃａｒｄｍｉｃｒｏｔｙｐｅ）、カードタイプのメモリー（例えばＳＤ又はＸＤメモリー等）、ラム（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ロム（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、磁気メモリー、磁気ディスク、光ディスクのうち少なくとも１つのタイプの保存媒体を含むことができる。コンピューティング装置（１００）は、インターネット（ｉｎｔｅｒｎｅｔ）上で前記メモリー（１３０）の保存機能を実行するウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）と連携して動作することも可能である。前述のメモリーに係る記述は、例示に過ぎず、本開示はこれらに限定されない。

本開示の一実施例におけるネットワーク部（１５０）は、公衆電話交換網（ＰＳＴＮ：ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）、ｘＤＳＬ（ｘＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）、ＲＡＤＳＬ（ＲａｔｅＡｄａｐｔｉｖｅＤＳＬ）、ＭＤＳＬ（ＭｕｌｔｉＲａｔｅＤＳＬ）、ＶＤＳＬ（ＶｅｒｙＨｉｇｈＳｐｅｅｄＤＳＬ）、ＵＡＤＳＬ（ＵｎｉｖｅｒｓａｌＡｓｙｍｍｅｔｒｉｃＤＳＬ）、ＨＤＳＬ（ＨｉｇｈＢｉｔＲａｔｅＤＳＬ）及び近距離通信網（ＬＡＮ）等のような多様な有線通信システムを使用することができる。

また、本明細書におけるネットワーク部（１５０）は、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＴＤＭＡ（ＴｉｍｅＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＦＤＭＡ（ＦｒｅｑｕｅｎｃｙＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＯＦＤＭＡ（ＯｒｔｈｏｇｏｎａｌＦｒｅｑｕｅｎｃｙＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＳＣ－ＦＤＭＡ（ＳｉｎｇｌｅＣａｒｒｉｅｒ－ＦＤＭＡ）及びその他のシステムのような多様な無線通信システムを利用することができる。

本開示におけるネットワーク部（１５０）は、有線及び無線等のような通信の様態を問わずに構成されることができ、短距通信網（ＰＡＮ：ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）、近距離通信網（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等の多様な通信網になり得る。また、前記ネットワークは、公知のワールドワイドウェブ（ＷＷＷ：ＷｏｒｌｄＷｉｄｅＷｅｂ）になり得る他、赤外線（ＩｒＤＡ：ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）又は、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ）のように、短距離通信に利用される無線伝送技術を利用することもできる。

本明細書において説明された技術は、前記のネットワークだけでなく、他のネットワークで使われることもできる。

図２は、本開示の一実施例において、医療データに対する診断関連情報を提供するために用いられるネットワーク関数を示す概略図である。

本明細書の全体を通して、演算モデル、神経回路網、ネットワーク関数、ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）は、同一の意味で用いることができる。神経回路網は、一般的にノードと呼ばれる相互連結された計算単位の集合で構成されることが多い。このようなノードは、ニューロン（ｎｅｕｒｏｎ）と称することもできる。神経回路網は、少なくとも１つ以上のノードを含めて構成される。神経回路網を構成するノード（またはニューロン）は１つ以上のリンクによって相互連結されることが可能である。

神経回路網において、リンクを介して繋がっている１つ以上のノードは、相対的に入力ノード及び出力ノードの関係を形成することができる。入力ノード及び出力ノードの概念は相対的なものであり、あるノードに対して出力ノードとなる任意のノードは、他のノードとの関係においては入力ノードになり得るが、その逆も成立する。前述のように、入力ノードと出力ノードとの関係はリンクを中心にして成立することができる。１つの入力ノードに１つ以上の出力ノードがリンクを介して繋がることができ、その逆も成立する。

１つのリンクを介して繋がっている入力ノード及び出力ノードの関係において、出力ノードのデータは入力ノードに入力されたデータに基づきその値が決められることが可能である。ここで、入力ノードと出力ノードとを相互連結するノードは加重値（ｗｅｉｇｈｔ）を持つことができる。加重値は可変的なものになり得るが、神経回路網が所望の機能を行うために、利用者またはアルゴリズムによって変わることが可能である。例えば、１つの出力ノードに１つ以上の入力ノードが各リンクによって相互連結されている場合、出力ノードは前記出力ノードに繋がっている入力ノードに入力された値及び各入力ノードに対応するリンクに設定された加重値に基づき出力ノードの値を決定することができる。

前述のように、神経回路網は、１つ以上のノードが１つ以上のリンクを介して相互連結され神経回路網の中で入力ノードと出力ノードの関係を形成する。神経回路網において、ノードとリンクの数及びノードとリンクとの間の相関関係、各リンクに付与された加重値の値によって、神経回路網の特性が決まることが可能である。例えば、同数のノード及びリンクが存在し、リンクの加重値の値がそれぞれ異なる２つの神経回路網が存在する場合、その２つの神経回路網を、相異なるものと認識することができる。

神経回路網は、１つ以上のノードの集合で構成することができる。神経回路網を構成するノードの部分集合は、レイヤー（ｌａｙｅｒ）を構成できる。神経回路網を構成する複数のノードのうち一部は、第１入力ノードからの距離に基づき、１つのレイヤー（ｌａｙｅｒ）を構成することができる。例えば、第１入力ノードからの距離がｎであるノードの集合は、ｎレイヤーを構成することができる。第１入力ノードからの距離は、第１入力ノードから当該ノードに到達するために経由しなければならないリンクの最小限の数を基に定義することができる。しかし、このようなレイヤーの定義は、説明のために任意に取り挙げたものであり、神経回路網の中におけるレイヤーの構成は、前述の説明と異なる方法で定義されることができる。例えば、ノードのレイヤーは、最終出力ノードからの距離を基に定義することもできる。

第１入力ノードは、神経回路網の中のノードのうち、他のノードとの関係においてリンクを経由せずにデータが直接入力される１つ以上のノードを意味することができる。または、神経回路網のネットワークの中で、リンクを基準にしたノード間の関係において、リンクを介して繋がっている他の入力ノードを持たないノードを意味することができる。これと同様に、最終出力ノードは、神経回路網の中のノードのうち、他のノードとの関係において、出力ノードを持たない１つ以上のノードを意味することができる。また、ヒドゥンノードは、第１入力ノード及び最終出力ノードではないノードで、神経回路網を構成するノードを意味することができる。

本開示の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードと同数で、入力レイヤーからヒドゥンレイヤー（ｈｉｄｄｅｎｌａｙｅｒ:隠れ層）へと進むにつれ、ノードの数が一度減ってから、再び増加する形の神経回路網になり得る。本開示の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードの数より少なく、入力レイヤーからヒドゥンレイヤーへと進むにつれ、ノードの数が減少していく形の神経回路網になり得る。また、本開示の他の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードの数より多く、入力レイヤーからヒドゥンレイヤーへと進むにつれ、ノードの数が増加していく形の神経回路網になり得る。本開示の他の一実施例における神経回路網は、上述の神経回路網を組み合わせた形の神経回路網になり得る。

ディープニューラルネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ、深層神経回路網）は、入力レイヤーと出力レイヤー以外に複数のヒドゥンレイヤーを含む神経回路網を意味することができる。ディープニューラルネットワークを利用するとデータの潜在的な構造（ｌａｔｅｎｔｓｔｒｕｃｔｕｒｅｓ）を把握することができる。つまり、写真、文章、ビデオ、音声、音楽の潜在的な構造（例えば、ある物が写真に映っているか、文章の内容と感情はどのようなものなのか、音声の内容と感情はどのようなものなのか等）を把握することができる。ディープニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、リカレントニューラルネットワーク（ＲＮＮ；：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、オートエンコーダー（ａｕｔｏｅｎｃｏｄｅｒ）、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）、制限ボルツマンマシン（ＲＢＭ：ｒｅｓｔｒｉｃｔｅｄｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ）、深層信頼ネットワーク（ＤＢＮ：ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ）、Ｑネットワーク、Ｕネットワーク、シャムネットワーク、敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）等を含むことができる。前述のディープニューラルネットワークは、例示に過ぎず本開示はこれらに限定されない。

本開示の一実施例において、ネットワーク関数は、オートエンコーダー（ａｕｔｏｅｎｃｏｄｅｒ）を含むこともできる。オートエンコーダーは、入力データに類似した出力データを出力するための人工神経回路網の一種になり得る。オートエンコーダーは、少なくとも１つのヒドゥンレイヤーを含むことができ、奇数個のヒドゥンレイヤーが入出力レイヤーの間に配置されることができる。各レイヤーのノード数は、入力レイヤーのノード数から、ボトルネックレイヤー（エンコード）という中間レイヤーに向かって減っていき、ボトルネックレイヤーから出力レイヤー（入力レイヤーと対称を成す）に向かって、縮小と対称する形で、拡張することもできる。オートエンコーダーは、非線形次元減少を行うことができる。入力レイヤー及び出力レイヤーの数は、入力データの前処理後に次元に対応することができる。オートエンコーダー構造において、エンコーダーに含まれたヒドゥンレイヤーのノードの数は、入力データから遠くなるほど減っていく構造を持つことができる。ボトルネックレイヤー（エンコーダーとデコーダーの間に位置する、ノードの数が最も少ないレイヤー）のノードの数が少なすぎる場合、十分な量の情報が伝わらない可能性があるため、特定の数以上（例えば、入力レイヤーの半分以上等）に維持されることもあり得る。

ニューラルネットワークは、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、半教師あり学習（ｓｅｍｉｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、または、強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）のうち、少なくともいずれか１つの方式で学習されることができる。ニューラルネットワークの学習は、ニューラルネットワークが特定の動作を行うための知識をニューラルネットワークに提供する過程になり得る。

ニューラルネットワークは、出力のエラーを最小化する方向で学習されることが可能である。ニューラルネットワークの学習において、繰り返し学習データをニューラルネットワークに入力させ、学習データに関するニューラルネットワークの出力とターゲットのエラーを計算し、エラーを減らすための方向としてニューラルネットワークのエラーをニューラルネットワークの出力レイヤーから入力レイヤーの方向へ逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）してニューラルネットワークの各ノードの加重値を更新するプロセスが行われる。教師あり学習の場合、個々の学習データに正解がラベリングされている学習データを使い（つまり、ラベリングされた学習データ）、教師なし学習の場合は、個々の学習データに正解がラベリングされていない場合がある。つまり、例えばデータ分類に関する教師あり学習における学習データは、学習データの各々にカテゴリがラベリングされたデータになり得る。ラベリングされた学習データがニューラルネットワークに入力され、ニューラルネットワークの出力（カテゴリ）と学習データのラベルを比較することでエラー（ｅｒｒｏｒ）を計算することが可能である。他の例として、データ分類に関する教師なし学習の場合、入力である学習データをニューラルネットワークの出力と比較することでエラーを計算することが可能である。計算されたエラーは、ニューラルネットワークにおいて逆方向（つまり、出力レイヤーから入力レイヤー方向）へ逆伝播され、逆伝播を通じてニューラルネットワークの各レイヤーの各ノードの連結加重値を更新することが可能である。更新される各ノードの連結加重値は、学習率（ｌｅａｒｉｎｇｒａｔｅ）によって変化量が決まることが可能である。入力データに対するニューラルネットワークの計算とエラーの逆伝播は、学習のサイクル（ｅｐｏｃｈ）を構成することができる。学習率は、ニューラルネットワークの学習のサイクルの反復回数によって適用方式が変わることが可能である。例えば、ニューラルネットワークの学習初期においては、学習率を高くしてニューラルネットワークが早く一定のレベルの性能を確保するようにすることで効率を高め、学習の後半においては学習率を低くして精度を上げることが可能である。

ニューラルネットワークの学習において、一般的に学習データは実際のデータ（つまり、学習されたニューラルネットワークを利用して処理しようとするデータ）の部分集合であることが可能であり、そのため学習データに係るエラーは減少するが、実際のデータに係るエラーは増加する学習サイクルが存在し得る。過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）は、このように学習データについて過度に学習したため、実際のデータにおいてエラーが増加する現象である。例えば、黄色い猫を見て猫を学習したニューラルネットワークが、黄色以外の色の猫を見ると猫であることを認識できない現象が過剰適合の一種になり得る。過剰適合は、マシンラーニングアルゴリズムのエラーを増加させる原因になり得る。このような過剰適合を防ぐために、多様な最適化方法を適用できる。過剰適合を防ぐためには、学習データを増加させる方法、正則化（ｒｅｇｕｌａｉｚａｔｉｏｎ）、学習の過程でネットワークのノードの一部を非活性化するドロップアウト（ｄｒｏｐｏｕｔ）、バッチ正規化レイヤー（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎｌａｙｅｒ）の活用等の方法を適用できる。

本開示の一実施例において、コンピューティング装置（１００）は、入力モジュール（１１１）、ＳＴＴモジュール（１１２）、ターゲット単語候補決定モジュール（１１３）、ターゲット単語決定モジュール（１１４）、コンテンツ決定モジュール（１１５）及びディスプレイモジュール（１１６）を含むことが可能である。一方、このようなコンピューティング装置（１００）に含まれることのできる複数のモジュールは、プロセッサー（１１０）により制御されたり、又は、プロセッサー（１１０）の動作により実行されることが可能である。また、音声信号に関連するコンテンツを決定する動作に係り、コンピューティング装置（１００）に含まれることのできる複数のモジュールは、上述の複数のモジュールに限定されず、その他のモジュールをさらに追加することが可能である。以下に、音声信号に関連するコンテンツを決定するための複数のモジュールの例についてより具体的に説明する。

図３は、本開示の一実施例における、音声認識に関連するコンテンツを決定する複数のモジュールのブロック構成図である。

本開示の一実施例において、入力モジュール（１１１）は、オーディオ信号又はオーディオ信号から変換されたスペクトログラム（ｓｐｅｃｔｒｏｇｒａｍ）の入力を受け取ることが可能である。例えば、入力された信号又はスペクトログラムは、ビデオ（例えば、ＹｏｕＴｕｂｅ（登録商標）動画）から抽出されたものになり得る。また、入力モジュール（１１１）は、入力されたファイルがビデオファイルの場合、オーディオと映像を分離し、オーディオ信号又はオーディオ信号から変換されたスペクトログラムだけを抽出することが可能である。

本開示の一実施例において、ＳＴＴモジュール（１１２）は、入力されたオーディオ信号に対し音声認識（ＳＴＴ）を実行し、音声認識（ＳＴＴ）結果テキストを出力することが可能である。且つ、ＳＴＴモジュール（１１２）をディープラーニングに基づくニューラルネットワークモデルとして構成することが可能である。また、ＳＴＴモジュール（１１２）は、入力モジュール（１１１）を介して入力された音声信号を変換してテキスト情報を生成できる。ＳＴＴモジュール（１１２）において実行される音声認識（ＳＴＴｏｒＡＳＲ；ＳｐｅｅｃｈＴｏＴｅｘｔ，ｏｒＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）は、音声をテキストに変換する文字起こし技術である。このような音声認識（ＳＴＴ）の入力（Ｉｎｐｕｔ）は、音声信号、音声信号を変換したスペクトログラム（ｓｐｅｃｔｒｏｇｒａｍ）、音声特徴（ｆｅａｔｕｒｅ）のうち、少なくとも１つを含むことが可能である。また、音声認識（ＳＴＴ）の出力（Ｏｕｔｐｕｔ）は、文字列形式のテキストである。一方、音声認識（ＳＴＴ）モデルは、前述のニューラルネットワークモデルを含む、多様な形態のモデルとして具現化されることが可能である。また、音声認識（ＳＴＴ）モデルは、具現化の方式によって、モジュール化された方式とモジュール化されていない方式のｅｎｄ－ｔｏ－ｅｎｄ（ｅ２ｅ）方式に分けられる。ここで、モジュール化された方式は、音響モデル（音声信号がどのような形態に表現されるかを示すモデル）、言語モデル（与えられた文章や単語に基づき、単語に発生確率を付与するモデル）、発音辞書等に分けて、音声認識を行うという伝統的な方式のモデル（例えば、Ｋａｌｄｉｔｏｏｌｋｉｔ基盤のＡＳＲのうち一部のモデル、Ｈｙｂｒｉｄ－ＡＳＲモデル等）等を含むことが可能であるが、これらに限定されない。一方、モジュール化されていない方式は、ｅ２ｅモデル（例えば、ｔｒａｎｓｆｏｒｍｅｒ－ｂａｓｅｄｅｎｃｏｄｅｒｄｅｃｏｄｅｒモデル等）を意味し、下位モジュールを設けずに多くのデータを学習させ、モデルを生成することが可能である。一方、デコーディング（Ｄｅｃｏｄｉｎｇ）手法は、ビームサーチ（ＢｅａｍＳｅａｒｃｈ）手法が代表的なものであり、ビームサーチ手法は、状況に応じて最も正解に近い単語を１つだけ予測するのではなく、あらゆる可能性を踏まえることができ、文章全体を考慮し最適解を見つけ出す方法である。

本開示の一実施例において、ターゲット単語候補決定モジュール（１１３）は、複数のターゲット単語候補を決定できる。例えば、ターゲット単語候補決定モジュール（１１３）は、ユーザー情報に基づき、複数のターゲット単語候補を決定したり、音声信号を変換して生成されたテキスト情報から抽出されたコア単語に係る情報に基づき、複数のターゲット単語候補を決定できる。

一実施例において、ターゲット単語候補決定モジュール（１１３）は、音声信号に関連するユーザー情報に基づき、複数のターゲット単語候補を決定できる。ユーザー情報は、職業情報、以前使った音声認識（ＳＴＴ）モデルの特化ドメインに係る情報、当該アカウントのユーザーが予め指定しておいた頻繁に使う単語を集めておいたユーザー辞書に係る情報等を含むことが可能である。一例として、職業情報に基づきあらかじめ指定されているキーワードをターゲット単語候補として決定することが可能である。ターゲット単語候補決定モジュール（１１３）は、ユーザーの職業が「開発者」の場合、開発者たちがよく使う、あらかじめ決められたキーワードを、ターゲット単語候補として決定することが可能である。他の一例として、ターゲット単語候補決定モジュール（１１３）は、ユーザーが使った音声認識モデルのタイプに係る情報に基づき、複数のターゲット単語候補を決定できる。言い換えると、ユーザーが以前使った音声認識モデルの特化ドメインに基づくキーワードをターゲット単語候補として決定できる。ターゲット単語候補決定モジュール（１１３）は、以前使った音声認識（ＳＴＴ）モデルが、「法律」分野に特化されたモデルの場合、法律分野において使われているキーワードをターゲット単語候補として決定することが可能である。他の一例として、ターゲット単語候補決定モジュール（１１３）は、ユーザー辞書に係る情報に含まれている、ユーザーが予め指定しておいた頻繁に使う単語（例えば、主に当該分野で使われている固有名詞等）をターゲット単語候補として決定することが可能である。ただし、上述のユーザー情報に基づき決定されるターゲット単語候補は、一例にすぎず、これらに限定されることなく、多様な実施例が存在し得る。

また、ターゲット単語候補決定モジュール（１１３）は、ＳＴＴモジュール（１１２）から出力された音声認識結果からコア単語（ｋｅｙｗｏｒｄ）を抽出し、複数のターゲット単語候補を決定できる。言い換えると、ターゲット単語候補決定モジュール（１１３）は、音声認識を通じて生成されたテキスト情報から抽出されたコア単語に係る情報に基づき、複数のターゲット単語候補を決定できる。（１）一例として、ターゲット単語候補決定モジュール（１１３）は、予め決められている分野別のキーワード辞書に基づき、前記生成されたテキスト情報から複数のコア単語を抽出することができ、前記抽出された複数のコア単語に基づき、複数のターゲット単語候補を決定することが可能である。（２）また、ターゲット単語候補決定モジュール（１１３）は、生成されたテキスト情報における単語の出現頻度を分析し複数のコア単語を決定することが可能である。一実施例において、ターゲット単語候補決定モジュール（１１３）は、ＴＦ－ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ－ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）アルゴリズムを利用し、出現頻度が予め設定されているしきい値以上の単語を識別でき、識別された複数の単語を複数のコア単語に絞ることができる。（３）また、ターゲット単語候補決定モジュール（１１３）は、話題（ｔｏｐｉｃ）情報に基づき、前記生成されたテキスト情報を複数のテキスト部分（例えば、複数の段落）に分けることができ、分けられた複数のテキスト部分の各々における出現頻度を分析し、前記複数のコア単語を抽出することも可能である。つまり、ターゲット単語候補決定モジュール（１１３）は、頻度分析を通じてコア単語を決定する前に、前記話題情報に基づき、テキスト分割（ｔｏｐｉｃｓｅｇｍｅｎｔａｔｉｏｎ）を先に行う場合もある。ここで、テキスト分割（ｔｏｐｉｃｓｅｇｍｅｎｔａｔｉｏｎ）は、長いテキストを話題ごとに適宜段落を分けるタスク（ｔａｓｋ）を指す。前述のテキスト分割は、人工知能モデルの処理の効率を向上できる。一実施例において、ターゲット単語候補決定モジュール（１１３）は、前記生成されたテキストを分割し、分割された部分の各々から要約情報を抽出し、類似の要約情報を有する複数の分割された部分をグループ化することで、前記複数のテキスト部分（つまり、話題情報に基づき、音声認識結果を分割することで生成された複数のテキスト部分）を生成できる。また、ターゲット単語候補決定モジュール（１１３）は、前記生成されたテキストに含まれている複数の文章間の類似度を分析し、類似の複数の文章をまとめてグループ化することで、前記複数のテキスト部分を生成することも可能である。一方、このような文章間の類似度の比較は、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）のような言語モデルを用いて行うことが可能である。上述の通り、ターゲット単語候補決定モジュール（１１３）は、音声認識により生成されたテキスト情報からすぐに「ターゲット単語」を決定するのではなく、決定に先立って「ターゲット単語候補」を決めてから、そのターゲット単語候補の中から、最終的にターゲット単語を決めることで、ターゲット単語が（音声認識結果から直接ターゲット単語を決める方法と比べたとき）比較的より精度の高い決定をすることができる。したがって、音声認識結果の不完全性により、ターゲット単語を直接抽出することが困難であった従来の問題点を解決できる。

本開示の一実施例において、ターゲット単語決定モジュール（１１４）は、基本的に前記ターゲット単語候補決定モジュール（１１３）により生成される複数のターゲット単語候補に基づき、ターゲット単語を決定できる（このような実施例については、以下により詳しく後述する予定である）。

ただし、ターゲット単語決定モジュール（１１４）は、特定の状況下では、前記複数のターゲット単語候補を考慮せずに、ターゲット単語をすぐに決定することが可能である。例えば、ターゲット単語決定モジュール（１１４）は、前記テキスト情報の中に、コンテンツソース（ｓｏｕｒｃｅ）に係る単語又はコンテンツに関連する時間に係る単語が含まれている場合、前記複数のターゲット単語候補に当該単語が含まれるか否かとは関係なく、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を、前記ターゲット単語としてすぐに決定することが可能である。例えば、ターゲット単語決定モジュール（１１４）は、テキスト情報に「昨日のニュースで天気が…」というテキストが含まれている場合、「昨日」と「ニュース」をターゲット単語としてすぐに決定することが可能である。一方、ターゲット単語決定モジュール（１１４）は、テキスト情報に「昨日のニュースで天気が…」というテキストが含まれている場合、「天気」は、コンテンツソース又はコンテンツに関連する時間に係る情報ではないため、すぐに「ターゲット単語」として決定することができない。

以下に、ターゲット単語決定モジュール（１１４）が、前記複数のターゲット単語候補に基づき、ターゲット単語を決定する例について説明する。

本開示の一実施例において、ターゲット単語決定モジュール（１１４）は、「前記複数のターゲット単語候補」と、「前記音声認識により生成されたテキスト情報」との比較に基づき、前記複数のターゲット単語候補の中からターゲット単語を決定できる。ここで、ターゲット単語は、入力されたオーディオコンテンツに関連するコア単語である可能性の高い単語になり得る。また、ターゲット単語は、１つの場合も複数の場合もある。例えば、ターゲット単語決定モジュール（１１４）は、前記複数のターゲット単語候補の各々に対し，前記テキスト情報との類似度を演算できる。言い換えると、ターゲット単語決定モジュール（１１４）は、ターゲット単語候補決定モジュール（１１３）において決定された複数のターゲット単語候補の各々に対し、音声認識（ＳＴＴ）を実行した結果であるテキスト情報との類似度を演算し、これに基づき、ターゲット単語候補の中からターゲット単語を決定することが可能である。例えば、具体的に、ターゲット単語決定モジュール（１１４）は、前記複数のターゲット単語候補の各々に対し、前記テキスト情報のすべての単語との編集距離を演算できる。一例として、ターゲット単語決定モジュール（１１４）は、２つ以上のターゲット単語候補に対し、Ｍｕｌｔｉ－ＰＥＸａｌｇｏｒｉｔｈｍを利用し、音声認識により生成されたテキスト情報に含まれている複数の単語の中から、前記ターゲット単語候補との編集距離がしきい値以下の単語をターゲット単語として決定できる。また、ターゲット単語決定モジュール（１１４）は、各ターゲット単語候補に対して演算された編集距離に基づき、各ターゲット単語候補の類似度を演算できる。また、ターゲット単語決定モジュール（１１４）は、各ターゲット単語候補に対して演算された編集距離を、しきい値と比較できる。また、ターゲット単語決定モジュール（１１４）は、前記演算された編集距離が前記しきい値未満の場合、類似度に重みをつけることが可能である。例えば、ターゲット単語決定モジュール（１１４）は、複数のターゲット単語候補が、第１ターゲット単語候補、第２ターゲット単語候補、第３ターゲット単語候補を含む場合、第１ターゲット単語候補、第２ターゲット単語候補、第３ターゲット単語候補の各々に対し、前記テキスト情報のすべての単語との編集距離を演算できる。また、ターゲット単語決定モジュール（１１４）は、第１ターゲット単語候補、第２ターゲット単語候補、第３ターゲット単語候補に対して演算された編集距離をしきい値と比較し、一例として、第１ターゲット単語候補に対して演算された変種距離が前記しきい値未満の場合、第１ターゲット単語候補の類似度に重みをつけることが可能である。

一方、ターゲット単語決定モジュール（１１４）は、前記複数のターゲット単語候補がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含む場合、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語に対しては、直接的な演算を行わずに、最も高い類似度を付与することが可能である（なお、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語は、上述のように、当該単語が、前記ターゲット単語候補決定モジュール（１１３）により前記複数のターゲット単語候補に含まれていない場合も、すぐにターゲット単語として決定されることが可能である。ただし、他の場合では、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語が、前記複数のターゲット単語候補に含まれると決定される場合があるが、この場合、前記ターゲット単語決定モジュール（１１４）は、直接的な演算を行うことなく、すぐに最も高い類似度を付与し、このようなルートを通じても、当該単語がターゲット単語として選択されるようにすることが可能である）。例えば、ターゲット単語決定モジュール（１１４）は、テキスト情報に「昨日のニュースで天気が…」というテキストが含まれている場合、コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語である「昨日」と「ニュース」については、直接的な演算を行うことなく、最も高い類似度を付与することが可能である。

このような、ターゲット単語決定モジュール（１１４）は、類似度の演算結果に基づき、前記ターゲット単語候補の中から、前記ターゲット単語を決定できる。例えば、ターゲット単語決定モジュール（１１４）は、類似度の演算結果に基づき、予め設定された基準（例えば、上位１０％）を満たしているターゲット単語候補の中から、ターゲット単語を決定できる。他の一例として、ターゲット単語決定モジュール（１１４）は、演算された編集距離に基づき、一定の基準（例えば、全体のターゲット単語候補の上位１０％）に沿ってターゲット単語候補の中からターゲット単語を決定することも可能である。また、ターゲット単語決定モジュール（１１４）は、編集距離の近いターゲット単語候補ほど高い類似度を付与することが可能である。

一方、上述の編集距離（ｅｄｉｔｄｉｓｔａｎｃｅ）は、多様な方式で決定されることが可能である。例えば、編集距離は、文字列が２つある場合、２つのうち１つの文字列を他の文字列に変換するときに必要な最小編集数と定義することが可能である。また、ここで編集の種類は、文字の削除（ｄｅｌｅｔｉｏｎ）、挿入（ｉｎｓｅｒｔｉｏｎ）、置換（ｓｕｂｓｔｉｔｕｔｉｏｎ）等を含むことが可能である。また、変種距離は、発音を基準にして演算されたり、テキストを基準にして演算されることが可能である。例えば、編集距離は、テキストを発音記号に変換することに基づいて演算されたり、テキスト自体に基づいて演算（例えば、文字単位で演算）されることも可能である。一方、編集距離アルゴリズムは、ＬｅｖｅｎｓｈｔｅｉｎｄｉｓｔａｎｃｅやＬｏｎｇｅｓｔやｃｏｍｍｏｎｓｕｂｓｅｑｕｅｎｃｅやＨａｍｍｉｎｇｄｉｓｔａｎｃｅ等を含むことが可能であり、これらのアルゴリズム以外にも多様なアルゴリズムを含むことが可能である。

また、音声認識結果テキスト情報（Ｔ）及び検索対象単語の集合（＝ターゲット単語候補集合）Ｑ＝｛ｑ_１，ｑ_２，．．．，ｑ_ｎ｝（この時、Ｔとｑ_１は、両方とも１以上の長さを有する文字列）について、前記テキスト情報（Ｔ）のうち、ターゲット単語候補（ｑｉ）の任意の要素（ｅｌｅｍｅｎｔ）との編集距離がしきい値以下の文字列区間を検索するとき、ナイーブ（ｎａｉｖｅ）な編集距離アルゴリズム又は単純な編集距離演算アルゴリズムが用いられる場合、ランタイムが幾何級数的に増えるという問題点が存在する。本開示の一実施例において、ターゲット単語決定モジュール（１１４）は、この問題を解決するために、ターゲット単語候補集合（Ｑ）又はテキスト情報（Ｔ）に含まれる複数の文字列に係る近似（ａｐｐｒｏｘｉｍａｔｅ）情報を活用でき、近似化された情報を活用し検索を行うことも可能である。例えば、本開示の一実施例において、プロセッサー（１１０）は、多重文字列近似マッチングアルゴリズム（ｍｕｌｔｉ－ｓｔｒｉｎｇａｐｐｒｏｘｉｍａｔｅ（ｆｕｚｚｙ）ｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍ）を用いて、テキスト情報（Ｔ）に含まれている単語のうち、前記ターゲット単語候補（ｑ）との編集距離がしきい値以下の単語をターゲット単語として決定できる。

例えば、ターゲット単語決定モジュール（１１４）は、探索するターゲット単語候補（ｑ）が１つの場合（例えば、ターゲット単語候補集合Ｑの大きさが１の場合）、ＰＥＸアルゴリズム（ａｌｇｏｒｉｔｈｍ）を利用して、テキスト情報（Ｔ）に含まれている単語のうち、前記ターゲット単語候補（ｑ）との編集距離がしきい値以下の単語を決定できる。また、ターゲット単語決定モジュール（１１４）は、テキスト情報（Ｔ）からターゲット単語候補（ｑ、Ｑの唯一のｅｌｅｍｅｎｔ）との編集距離がしきい値（ｋ）以下の区間を決定でき、決定された区間に基づき単語を識別できる。この場合、ターゲット単語決定モジュール（１１４）は、「テキスト情報（Ｔ）に正解区間（つまり、ターゲット単語候補との編集距離がしきい値（ｋ）以下の区間）が存在する場合、ターゲット単語候補（ｑ）を、ｋ＋１の要素に分割すると、ｋ＋１の要素のうち、少なくとも１つは、その正解区間の中に存在する」という前提に基づき、テキスト情報（Ｔ）において、ターゲット単語候補（ｑ）との編集距離がしきい値（ｋ）以下の区間を決定できる。例えば、ターゲット単語決定モジュール（１１４）は、ターゲット単語候補（ｑ）をｋ＋１の要素（ｅｌｅｍｅｎｔ）に分割し、Ｍｕｌｔｉ－ｓｔｒｉｎｇｅｘａｃｔｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍ（例えば、Ａｈｏ－ｃｏｒａｓｉｃｋ等）を利用して、テキスト情報（Ｔ）から前記ｋ＋１の要素を探索でき、テキスト情報（Ｔ）において前記ｋ＋１の要素のうち、少なくとも１つの要素が見つかった場合、見つかった要素の周辺の区間（例えば、見つかった要素の両側においてターゲット単語候補（ｑ）の長さに相当する区間）において、編集距離がしきい値（ｋ）以下の単語を識別できる。また、ターゲット単語決定モジュール（１１４）は、テキスト情報（Ｔ）において前記ｋ＋１個の要素がまったく見つからない場合、「テキスト情報（Ｔ）の中には、ターゲット単語候補（ｑ）との編集距離がしきい値（ｋ）以下の単語が存在しない」と決定することが可能である。

他の例を挙げると、ターゲット単語決定モジュール（１１４）は、探索するターゲット単語候補が２つ以上の場合（例えば、ターゲット単語候補集合Ｑの大きさが２以上の場合）、Ｍｕｌｔｉ－ＰＥＸａｌｇｏｒｉｔｈｍを利用してテキスト情報（Ｔ）に含まれている単語のうち、前記ターゲット単語候補（ｑ_１、ｑ_２、．．．，ｑ_ｎ）との編集距離がしきい値以下の単語を決定できる。まず、ターゲット単語決定モジュール（１１４）は、ターゲット単語候補集合（Ｑ）に含まれているすべてのターゲット単語候補（ｑ_１、ｑ_２、．．．，ｑ_ｎ）の各々をｋ＋１の要素に分割できる。また、ターゲット単語決定モジュール（１１４）は、すべてのターゲット単語候補集合（Ｑ）の要素を、一度に同じＭｕｌｔｉ－ｓｔｒｉｎｇｅｘａｃｔｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍに適用して探索することが可能である。一例として、ターゲット単語決定モジュール（１１４）は、エイホ‐コラシック法（Ａｈｏ－ｃｏｒａｓｉｃｋ）のアルゴリズムを利用した場合、１つのツリー（ｔｒｉｅ）にすべてのターゲット単語候補集合（Ｑ）の要素を含めて探索できる。また、ターゲット単語決定モジュール（１１４）は、テキスト情報（Ｔ）の中に、ターゲット単語候補集合（Ｑ）の少なくとも１つの要素が存在する場合、当該要素の周辺のテキスト（例えば、両側にターゲット単語候補（ｑ_１、ｑ_２、．．．，）の長さに相当する）区間において編集距離がしきい値（ｋ）以下の単語が存在するか否か探索することが可能である。また、ターゲット単語決定モジュール（１１４）は、テキスト情報（Ｔ）において探索されたターゲット単語候補集合（Ｑ）の要素が存在しない場合、テキスト情報（Ｔ）の中には、「ターゲット単語候補集合（Ｑ）との編集距離がしきい値（ｋ）以下の単語が存在しない」と決定することが可能である。

本開示の一実施例において、コンテンツ決定モジュール（１１５）は、ターゲット単語に関連するコンテンツを決定できる。この場合、コンテンツ決定モジュール（１１５）は、先んじて複数のコンテンツ候補を決定することができ、決定された複数のコンテンツ候補の中から、ターゲット単語に関連する最終コンテンツを決定することが可能である。一方、コンテンツ決定モジュール（１１５）は、（１）「ターゲット単語がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含む場合」と（２）コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含まない場合とのそれぞれに対し、異なる方式でコンテンツ候補を決定することも可能である。

一例として、コンテンツ決定モジュール（１１５）は、「ターゲット単語集合がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含む場合」、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語に基づき、前記複数のコンテンツ候補を決定できる。例えば、コンテンツ決定モジュール（１１５）は、ターゲット単語集合に、コンテンツソースに係る単語又はコンテンツに関連する時間に関する単語である「昨日」と「ニュース」が含まれる場合、「昨日」と「ニュース」に係る単語に基づき、現在の日付を基準にして一日前に報道されたニュースである複数の「昨日のニュース」を、複数のコンテンツ候補として決定できる。また、コンテンツ決定モジュール（１１５）は、前記複数のコンテンツ候補の中から、前記ターゲット単語集合の他のターゲット単語に関連するコンテンツを決定できる。一例として、コンテンツ決定モジュール（１１５）は、「昨日のニュース」を含む複数のコンテンツ候補のうち、前記ターゲット単語集合に含まれている「昨日」、「ニュース」、「天気」の中から、コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語ではない、他のターゲット単語である「天気」に関連するコンテンツを最終的に関連コンテンツとして決定することが可能である。

一方、コンテンツ決定モジュール（１１５）は、「ターゲット単語集合がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含まない場合」、ユーザーアカウント又はユーザーディバイスに関連するコンテンツに基づき、前記複数のコンテンツ候補を決定できる。この場合、コンテンツ決定モジュール（１１５）は、ユーザーアカウントと連動されたクラウドストレージに保存されているファイル、通話の録音データ、ユーザーディバイスのローカルに保存されているファイルの中から、ターゲット単語が含まれているファイルに関連するコンテンツに基づき、前記複数のコンテンツ候補を決定することが可能である。例えば、ターゲット単語集合が「録音」、「音声ファイル」、「テキスト」を含む場合、ユーザーアカウント又はユーザーディバイスに関連するコンテンツに基づき、当該単語が含まれた複数のコンテンツ候補を決定することが可能である。ここで、コンテンツ決定モジュール（１１５）は、前記複数のコンテンツ候補の中から、前記ターゲット単語集合の少なくとも１つのターゲット単語に関連するコンテンツを決定することが可能である。例えば、コンテンツ決定モジュール（１１５）は、ターゲット単語集合が「録音」、「音声ファイル」、「テキスト」を含む場合、複数のコンテンツ候補の中から、「録音」、「音声ファイル」、「テキスト」の中から、少なくとも１つのターゲット単語に関連するコンテンツを決定することが可能である。

このような、コンテンツ決定モジュール（１１５）は、前記複数のコンテンツ候補の中から、前記ターゲット単語に関連するコンテンツを決定することが可能である。例えば、コンテンツ決定モジュール（１１５）は、テキスト情報にコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語が含まれる場合、複数のコンテンツ候補である複数の「昨日のニュース」の中から、ターゲット単語として決定された「天気」が多数含まれているコンテンツを、関連コンテンツとして決定することが可能である。他の例を挙げると、テキスト情報にコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語が含まれていない場合、ユーザーアカウントと連動するクラウドストレージに保存されているファイル、通話の録音データ、ユーザーディバイスのローカルに保存されているファイルのうち、ターゲット単語が含まれているファイルを、関連コンテンツとして決定することが可能ある。一方、コンテンツ決定モジュール（１１５）は、複数のコンテンツ候補又はターゲット単語に関連するコンテンツの数が少ない場合、ターゲット単語をウェブ（ｗｅｂ）、ユーチューブ（ＹｏｕＴｕｂｅ）、グーグル（Ｇｏｏｇｌｅ）等検索エンジンを通じて検索した結果をクローリングして関連コンテンツとして決定することも可能である。

図４は、本開示の一実施例における、音声信号に関連するコンテンツを決定するための動作に係るユーザーインターフェースの概略図である。

例示として、図４を参照すると、ディスプレイモジュール（１１６）は、入力されたオーディオファイルの再生のための再生バー（ｂａｒ）と、編集可能な音声認識結果テキスト情報と共に、コンテンツ決定モジュール（１１５）において決定された関連コンテンツ（例えば：図４の右側の「連結された記録」の通話の録音データ、ｐｄｆファイル、ウェブページアドレス等）をディスプレイできる。もし、入力されたファイルがビデオファイルの場合、当該映像も一緒にディスプレイすることが可能である。

他の例として、ディスプレイモジュール（１１６）が、先んじて入力モジュール（１１１）乃至コンテンツ決定モジュール（１１５）の動作により提案された関連コンテンツをディスプレイすることもできるが、前述のモジュールの動作なしに、ユーザーが直接ユーザーインターフェースを通じて「連結された記録」の部分に関連するコンテンツ（例えば、図４の右側の「連結された記録」の通話の録音データ、ｐｄｆファイル、ウェブページアドレス等）をアップロードすることも可能である。これは、ユーザーが、その後音声認識（ＳＴＴ）の結果を利用するとき、活用の利便性を提供するためである。

図５は、本開示の一実施例における、音声信号に関連するコンテンツを決定する方法に係る概略図である。

図５に図示されている音声信号に関連するコンテンツを決定する方法は、コンピューティング装置（１００）によって行われることが可能である。詳しい説明は省略するが、コンピューティング装置（１００）について説明した内容を、音声信号に関連するコンテンツを決定する方法に係る説明にも同様に適用できる。

図５を参照すると、本開示の一実施例において、音声信号に関連するコンテンツを決定する方法は、音声信号を変換してテキスト情報を生成する段階（Ｓ１１０）、複数のターゲット単語候補を決定する段階（Ｓ１２０）、前記複数のターゲット単語候補と前記生成されたテキスト情報との比較に基づき、前記複数のターゲット単語候補の中からターゲット単語を決定する段階（Ｓ１３０）及び前記ターゲット単語に関連するコンテンツを決定する段階を含むことが可能である。また、本開示の一実施例において、音声信号に関連するコンテンツを決定する方法は、コンピューティング装置（１００）によって行われることが可能である。

前記Ｓ１１０段階は、音声信号を変換してテキスト情報を生成する段階である。

前記Ｓ１２０段階は、複数のターゲット単語候補を決定する段階である。このようなＳ１２０段階は、前記音声信号に関連するユーザー情報に基づき、前記複数のターゲット単語候補を決定する段階と、前記生成されたテキスト情報から抽出されたコア単語（ｋｅｙｗｏｒｄ）の情報に基づき、前記複数のターゲット単語候補を決定する段階とのうち、少なくとも１つの段階と、を含むことが可能である。

前記Ｓ１３０段階は、前記複数のターゲット単語候補と前記生成されたテキスト情報との比較に基づき、前記複数のターゲット単語候補の中からターゲット単語を決定する段階である。このような前記Ｓ１３０段階は、前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を演算する段階、及び前記類似度演算結果に基づき、前記ターゲット単語候補の中から前記ターゲット単語を決定する段階を含むことが可能である。

前記Ｓ１４０段階は、前記ターゲット単語に関連するコンテンツを決定する段階である。このような前記Ｓ１４０段階は、複数のコンテンツ候補を決定する段階、及び前記複数のコンテンツ候補の中から、前記ターゲット単語に関連するコンテンツを決定する段階を含むことが可能である。

一方、本開示の一実施例において、音声信号に関連するコンテンツを決定する方法は、前記Ｓ１１０乃至前記Ｓ１４０段階に加え、前記テキスト情報の中に、コンテンツソース（ｓｏｕｒｃｅ）に係る単語又はコンテンツに関連する時間に係る単語が含まれている場合、前記複数のターゲット単語候補に含まれているか否かとは関係なく、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を、前記ターゲット単語としてすぐに決定する段階を含むことが可能である。

以上の説明における複数の段階は、本開示の具現化の例によっては、より多くの段階に分割されたり、より少ない段階にまとめられることが可能である。また、一部の段階は、必要に応じて省略される場合もあり、段階の順番が変更される場合もある。

本開示の一実施例に基づき、データ構造を保存したコンピューター可読保存媒体が開示される。

データ構造は、データに効率的なアクセスおよび修正を可能にするデータの組織、管理、保存を意味することができる。データ構造は、特定の問題（例えば、最短時間でデータ検索、データ保存、データ修正）を解決するためのデータ組織を意味することができる。データ構造は、特定のデータ処理機能をサポートするように設計されたデータ要素間の物理的または論理的な関係と定義することもできる。データ要素間の論理的な関係は、ユーザーが考えるデータ要素間の連結関係を含むことができる。データ要素間の物理的な関係は、コンピューター可読保存媒体（例えば、ハードディスク）に物理的に保存されているデータ要素間の実際の関係を含むことができる。データ構造は具体的にデータの集合、データ間の関係、データに適用できる関数またはコマンドを含むことができる。効果的に設計されたデータ構造により、コンピューティング装置はコンピューティング装置のリソースを最小限に使用しながら計算を行うことができる。具体的にコンピューティング装置は効果的に設計されたデータ構造を通じて演算、読み取り、挿入、削除、比較、交換、検索の効率性を高めることができる。

データ構造はデータ構造の形態によって線形データ構造と非線形データ構造に区分されることができる。線形データ構造は、一つのデータの後に一つのデータだけが連結される構造である可能性がある。線形データ構造はリスト（Ｌｉｓｔ）、スタック（Ｓｔａｃｋ）、キュー（Ｑｕｅｕｅ）、デッキ（Ｄｅｑｕｅ）を含むことができる。リストは、内部的に順序が存在する一連のデータセットを意味することが可能である。リストは連結リスト（ＬｉｎｋｅｄＬｉｓｔ）を含むことができる。連結リストはそれぞれのデータがポインタを持って一列に連結されている方式でデータが連結されたデータ構造でありうる。連結リストでポインタは、次や以前のデータとの連結情報を含むことができる。連結リストは形態によって単一連結リスト、二重連結リスト、円形連結リストで表現できる。スタックは制限的にデータにアクセスできるデータリスト構造である可能性がある。スタックは、データ構造の片端でのみデータを処理（例えば、挿入または削除）できる線形データ構造である可能性がある。スタックに保存されたデータは、遅く入るほど早く出てくるデータ構造（ＬＩＦＯ－ＬａｓｔｉｎＦｉｒｓｔＯｕｔ）である可能性がある。キューは制限的にデータにアクセスできるデータ羅列構造であり、スタックとは異なり遅く保存されたデータほど遅く出てくるデータ構造（ＦＩＦＯ－ＦｉｒｓｔｉｎＦｉｒｓｔＯｕｔ）であることができる。デッキはデータ構造の両端でデータを処理できるデータ構造になり得る。

非線形データ構造は、一つのデータの後に複数のデータが連結される構造である可能性がある。非線形データ構造はグラフ（Ｇｒａｐｈ）データ構造を含むことができる。グラフデータ構造は頂点（Ｖｅｒｔｅｘ）と幹線（Ｅｄｇｅ）で定義でき、幹線は互いに異なる二つの頂点を連結する線を含むことができる。グラフデータ構造ツリー（Ｔｒｅｅ）データ構造を含むことができる。ツリーデータ構造はツリーに含まれる複数の頂点のうち、互いに異なる２つの頂点を連結させる経路が一つのデータ構造になり得る。すなわち、グラフデータ構造でループ（ｌｏｏｐ）を形成しないデータ構造になり得る。

本明細書にかけて、演算モデル、神経回路網、ネットワーク関数、ニューラルネットワークは同じ意味で使用できる（以下ではニューラルネットワークで統一して記述する）。データ構造はニューラルネットワークを含むことができる。そして、ニューラルネットワークを含むデータ構造は、コンピューター可読保存媒体に保存されることができる。ニューラルネットワークを含むデータ構造はまた、ニューラルネットワークに入力されるデータ、ニューラルネットワークの加重値、ニューラルネットワークのハイパーパラメータ、ニューラルネットワークから獲得したデータ、ニューラルネットワークの各ノードまたはレイヤーに関連する活性関数、ニューラルネットワークの学習のための損失関数を含むことができる。ニューラルネットワークを含むデータ構造は、前記開示された構成のうち任意の構成要素を含むことができる。すなわち、ニューラルネットワークを含むデータ構造は、ニューラルネットワークに入力されるデータ、ニューラルネットワークの加重値、ニューラルネットワークのハイパーパラメータ、ニューラルネットワークから獲得したデータ、ニューラルネットワークの各ノードまたはレイヤーに関連する活性関数、ニューラルネットワークのトレーニングのための損失関数など、全部またはこれらの任意の組み合わせを含んで構成されることができる。前述した構成以外にも、ニューラルネットワークを含むデータ構造は、ニューラルネットワークの特性を決定する任意の他の情報を含むことができる。また、データ構造は、ニューラルネットワークの演算過程で使用されたり、発生するすべての形態のデータを含むことができ、前述の事項に制限されるわけではない。コンピューター可読保存媒体は、コンピューター可読記録媒体および／またはコンピューター可読伝送媒体を含むことができる。ニューラルネットワークは、一般的にノードと呼ばれる相互接続された計算単位の集合で構成されることができる。このようなノードはニューロン（ｎｅｕｒｏｎ）と呼ばれることができる。ニューラルネットワークは、少なくとも１つ以上のノードを含んで構成される。

データ構造は、ニューラルネットワークに入力されるデータを含むことができる。ニューラルネットワークに入力されるデータを含むデータ構造は、コンピューター可読保存媒体に保存されることができる。ニューラルネットワークに入力されるデータは、ニューラルネットワークの学習過程で入力される学習データおよび／または学習が完了したニューラルネットワークに入力される入力データを含むことができる。ニューラルネットワークに入力されるデータは、前処理（ｐｒｅ－ｐｒｏｃｅｓｓｉｎｇ）を経たデータおよび／または前処理対象となるデータを含むことができる。前処理はデータをニューラルネットワークに入力させるためのデータ処理過程を含むことができる。したがって、データ構造は前処理対象となるデータおよび前処理で発生するデータを含むことができる。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。

データ構造は、ニューラルネットワークの加重値を含むことができる（本明細書で加重値、パラメータは同じ意味で使用できる）。そして、神経回路網の加重値を含むデータ構造はコンピューター可読保存媒体に保存されることができる。ニューラルネットワークは、複数の加重値を含むことができる。加重値は可変的であり、ニューラルネットワークが望む機能を遂行するために、ユーザーまたはアルゴリズムによって可変することができる。例えば、一つの出力ノードに一つ以上の入力ノードがそれぞれのリンクによって相互接続された場合、出力ノードは前記出力ノードと連結された入力ノードに入力された値及びそれぞれの入力ノードに対応するリンクに設定されたパラメータに基づいて出力ノード値を決定することができる。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。

制限ではなく例として、加重値は神経回路網学習過程で可変する加重値および／または神経回路網学習が完了した加重値を含むことができる。ニューラルネットワーク学習過程で可変される加重値は、学習サイクルが始まる時点の加重値および／または学習サイクルの間に可変される加重値を含むことができる。ニューラルネットワーク学習が完了した加重値は、学習サイクルが完了した加重値を含むことができる。したがって、ニューラルネットワークの加重値を含むデータ構造は、ニューラルネットワーク学習過程で可変される加重値および／またはニューラルネットワーク学習が完了した加重値を含むデータ構造を含むことができる。したがって、上述した加重値および／または各加重値の組み合わせは、神経回路網の加重値を含むデータ構造に含まれるものとする。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。

ニューラルネットワークの加重値を含むデータ構造は、直列化（ｓｅｒｉａｌｉｚａｔｉｏｎ）過程を経た後、コンピューター可読保存媒体（例えば、メモリ、ハードディスク）に保存されることができる。直列化は、データ構造を同一または他のコンピューティングデバイスに保存し、後で再構成して使用できる形態に変換する過程である可能性がある。コンピューティングデバイスは、データ構造を直列化し、ネットワークを介してデータを送受信することができる。直列化されたニューラルネットワークの加重値を含むデータ構造は、逆直列化（ｄｅｓｅｒｉａｌｉｚａｔｉｏｎ）を通じて同じコンピューティング装置または他のコンピューティング装置で再構成されることができる。ニューラルネットワークの加重値を含むデータ構造は、シリアル化に限定されるものではない。さらに、神経回路網の加重値を含むデータ構造は、コンピューティング装置の資源を最小限に使用しながら演算の効率を高めるためのデータ構造（例えば、非線形データ構造でＢ－Ｔｒｅｅ、Ｔｒｉｅ、ｍ－ｗａｙｓｅａｒｃｈｔｒｅｅ、ＡＶＬｔｒｅｅ、Ｒｅｄ－ＢｌａｃｋＴｒｅｅ）を含むことができる。前述の事項は例示に過ぎず、本開示はこれに限定されない。

データ構造は、ニューラルネットワークのハイパーパラメータ（Ｈｙｐｅｒ－ｐａｒａｍｅｔｅｒ）を含むことができる。そして、ニューラルネットワークのハイパーパラメータを含むデータ構造は、コンピューター可読保存媒体に保存されることができる。ハイパーパラメータは、ユーザーによって可変される変数である可能性がある。ハイパーパラメータは、例えば、学習率（ｌｅａｒｎｉｎｇｒａｔｅ）、コスト関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）、学習サイクル反復回数、加重値初期化（例えば、加重値初期化対象となる加重値の範囲設定）、ＨｉｄｄｅｎＵｎｉｔ個数（例えば、ヒドゥンレイヤーの個数、ヒドゥンレイヤーのノード数）を含むことができる。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。

図６は、本開示の実施例が具現化されることのできる例示的なコンピューティング環境に係る簡略で一般的な概略図である。本開示が一般的にコンピューティング装置により具現化されることができると前述されているが、当業者であれば本開示が一つ以上のコンピューター上で実行されることのできるコンピューター実行可能命令及び／またはその他のプログラムモジュールと結合して及び／またはハードウェアとソフトウェアの組み合わせとして具現化されることができるということをよく理解できるだろう。

一般的に、本明細書におけるモジュールは、特定のタスクを実行したり、特定の抽象的なデータ類型を実装するルーティン、プログラム、コンポーネント、データ構造、その他等々を含む。また、当業者なら本開示の方法がシングルプロセッサーまたはマルチプロセッサーコンピューターシステム、ミニコンピューター、メインフレームコンピューターはもちろん、パーソナルコンピューター、ハンドヘルド（ｈａｎｄｈｅｌｄ）コンピューティング装置、マイクロプロセッサー基盤、またはプログラム可能な家電製品、その他等々（これらは、それぞれ１つ以上の関連する装置と繋がって動作することができる）をはじめとする、他のコンピューターシステムの構成によって実施されることができることをよく理解できるだろう。

本開示において説明された実施例は、さらに、あるタスクが通信ネットワークを通じて繋がっている遠隔処理装置によって実行される分散コンピューティング環境で実施されることができる。分散コンピューティング環境において、プログラムモジュールは、ローカルや遠隔メモリー保存装置の両方に位置することができる。

コンピューターは、多様なコンピューター可読媒体を含む。コンピューターによってアクセス可能な媒体はいずれもコンピューター可読媒体になり得るが、このようなコンピューター可読媒体は揮発性及び非揮発性媒体、一時的（ｔｒａｎｓｉｔｏｒｙ）及び非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）媒体、移動式及び非－移動式媒体を含む。制限ではなく例として、コンピューター可読媒体は、コンピューター可読保存媒体及びコンピューター可読伝送媒体を含むことができる。コンピューター可読保存媒体は、コンピューター可読命令、データ構造、プログラムモジュール又はその他のデータのような情報を保存する任意の方法又は技術により実装される揮発性及び非揮発性媒体、一時的及び非－一時的媒体、移動式及び非移動式媒体を含む。コンピューター可読保存媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリーまたはその他のメモリー技術、ＣＤ－ＲＯＭ、ＤＶＤ（ｄｉｇｉｔａｌｖｉｄｅｏｄｉｓｋ）またはその他の光ディスク保存装置、磁気カセット、磁気テープ、磁気ディスク保存装置またはその他の磁気保存装置、またはコンピューターによってアクセスされることができ、情報を保存するのに使われることのできる任意のその他の媒体を含むが、これに限定されない。

コンピューター可読伝送媒体は、通常、搬送波（ｃａｒｒｉｅｒｗａｖｅ）またはその他の伝送メカニズム（ｔｒａｎｓｐｏｒｔｍｅｃｈａｎｉｓｍ）のような被変調データ信号（ｍｏｄｕｌａｔｅｄｄａｔａｓｉｇｎａｌ）にコンピューター可読命令、データ構造、プログラムモジュールまたはその他のデータ等を実装し、すべての情報伝達媒体を含む。被変調データ信号という用語は、信号の中で情報をエンコードするように、その信号の特性のうち１つ以上を設定または変更した信号を意味する。制限ではなく例として、コンピューター可読伝送媒体は、有線ネットワークまたは直接配線接続（ｄｉｒｅｃｔ－ｗｉｒｅｄｃｏｎｎｅｃｔｉｏｎ）のような有線媒体、そして音響、ＲＦ、赤外線、その他の無線媒体のような無線媒体を含む。前述の媒体のいずれかによる任意の組み合わせもまたコンピューター可読伝送媒体の範囲に含まれるものとする。

コンピューター（１１０２）を含む本開示の多様な側面を実現する例示的な環境（１１００）が示されており、コンピューター（１１０２）は、処理装置（１１０４）、システムメモリー（１１０６）、システムバス（１１０８）を含む。システムバス（１１０８）は、システムメモリー（１１０６）（これに限定されない）をはじめとするシステムコンポーネントを処理装置（１１０４）につなげる。処理装置（１１０４）は、多様な商用プロセッサーのうち任意のプロセッサーになり得る。デュエルプロセッサーとその他のマルチプロセッサーアーキテクチャもまた処理装置（１１０４）として利用されることができる。

システムバス（１１０８）は、メモリーバス、周辺装置バス、そして多様な商用バスアーキテクチャの中から、任意のものを使用するローカルバスにさらに相互連結されることのできる複数の類型のバス構造のうちいずれかになり得る。システムメモリー（１１０６）は、読み取り専用メモリー（ＲＯＭ）（１１１０）やランダムアクセスメモリー（ＲＡＭ）（１１１２）を含む。基本的な入出力システム（ＢＩＯＳ）は、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ等の非揮発性メモリー（１１１０）に保存され、このＢＩＯＳは、起動中の時等にコンピューター（１１０２）の中の複数の構成要素間の情報のやりとりをサポートする基本的なルーティンを含む。ＲＡＭ（１１１２）は、またデータをキャッシュするための静的ＲＡＭ等の高速ＲＡＭを含むことができる。

コンピューター（１１０２）においては、また、内蔵型ハードディスクドライブ（ＨＤＤ）（１１１４）（例えば、ＥＩＤＥ、ＳＡＴＡ）―この内蔵型ハードディスクドライブ（１１１４）はまた適切なシャシー（図示は省略）の中で外付け型の用途で構成されることができる―、磁気フロッピーディスクドライブ（ＦＤＤ）（１１１６）（例えば、移動式ディスケット（１１１８）から読み取ったりそれに書き込むためのものである）及び光ディスクドライブ（１１２０）（例えば、ＣＤ－ＲＯＭディスク（１１２２）を読み取ったり、ＤＶＤ等のその他の高容量光媒体から読み取ったり、それに書き込むためのものである）を含む。ハードディスクドライブ（１１１４）、磁気ディスクドライブ（１１１６）及び光ディスクドライブ（１１２０）は、それぞれハードディスクドライブインターフェース（１１２４）、磁気ディスクドライブインターフェース（１１２６）及び光ドライブインターフェース（１１２８）によってシステムバス（１１０８）に繋がることができる。外付け型ドライブの実装のためのインターフェース（１１２４）は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やＩＥＥＥ１３９４インターフェース技術のうち、少なくとも１つまたはその両方を含む。

これらのドライブ及びこれらに係るコンピューター可読媒体は、データ、データ構造、コンピューターで実行可能な命令、その他等々の非揮発性保存を提供する。コンピューター（１１０２）の場合、ドライブ及び媒体は、任意のデータを適切なデジタル形式に保存することに対応する。前述におけるコンピューター可読保存媒体に係る説明が、ＨＤＤ、移動式磁気ディスク及びＣＤまたはＤＶＤ等の移動式光媒体について触れているが、当業者ならジップドライブ（ｚｉｐｄｒｉｖｅ）、磁気カセット、フラッシュメモリーカード、カートリッジ、その他等々のコンピューターにより読み取り可能な他の類型の保存媒体もまた例示的な運営環境で使われることができ、さらに、このような媒体のうち任意のある媒体が、本開示の方法を実行するためのコンピューターで実行可能な命令を含むことができることをよく理解できるだろう。

運営システム（１１３０）、１つ以上のアプリケーションプログラム（１１３２）、その他のプログラムモジュール（１１３４）及びプログラムデータ（１１３６）をはじめとする多数のプログラムモジュールが、ドライブ及びＲＡＭ（１１１２）に保存されることができる。運営システム、アプリケーション、モジュール及び／またはデータの全部またはその一部分がまたＲＡＭ（１１１２）にキャッシュされることができる。本開示が商業的に利用可能な様々な運営システムまたは複数の運営システムの組み合わせにより実装されることができることをよく理解できるだろう。

ユーザーは、１つ以上の有線・無線の入力装置、例えば、キーボード（１１３８）及びマウス（１１４０）等のポインティング装置を通じてコンピューター（１１０２）に命令及び情報を入力することができる。その他の入力装置（図示は省略）としてはマイク、ＩＲリモコン、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーン、その他等々があり得る。これら及びその他の入力装置が、よくシステムバス（１１０８）に繋がっている入力装置インターフェース（１１４２）を通じて処理装置（１１０４）に繋がることがあるが、並列ポート、ＩＥＥＥ１３９４直列ポート、ゲームポート、ＵＳＢポート、ＩＲインターフェース、その他等々のその他のインターフェースによって繋がることができる。

モニター（１１４４）または他の類型のディスプレイ装置も、ビデオアダプター（１１４６）等のインターフェースを通じてシステムバス（１１０８）に繋がる。モニター（１１４４）に加えて、コンピューターは一般的にスピーカー、プリンター、その他等々のその他の周辺出力装置（図示は省略）を含む。

コンピューター（１１０２）は、有線及び／または無線通信による（複数の）遠隔コンピューター（１１４８）等の１つ以上の遠隔コンピューターへの論理的接続を利用し、ネットワーク化された環境で動作することができる。（複数の）遠隔コンピューター（１１４８）は、ワークステーション、サーバーコンピューター、ルーター、パーソナルコンピューター、携帯用コンピューター、マイクロプロセッサー基盤の娯楽機器、ピア装置またはその他の通常のネットワークノードになることができ、一般的にコンピューター（１１０２）について述べられた構成要素のうち、多数またはその全部を含むが、簡略化するために、メモリー保存装置（１１５０）のみ図示されている。図示されている論理的接続は、近距離通信網（ＬＡＮ）（１１５２）及び／または、より大きいネットワーク、例えば、遠距離通信網（ＷＡＮ）（１１５４）における有線・無線の接続を含む。このようなＬＡＮ及びＷＡＮのネットワーキング環境は、オフィスや会社では一般的なもので、イントラネット等の全社的コンピューターネットワーク（ｅｎｔｅｒｐｒｉｓｅ－ｗｉｄｅｃｏｍｐｕｔｅｒｎｅｔｗｏｒｋ）を容易にし、これらはすべて全世界のコンピューターネットワーク、例えば、インターネットに繋がることができる。

ＬＡＮネットワーキング環境で使われるとき、コンピューター（１１０２）は、有線及び／または無線通信ネットワークインターフェース、または、アダプター（１１５６）を通じてローカルネットワーク（１１５２）に繋がる。アダプター（１１５６）は、ＬＡＮ（１１５２）への有線または無線通信を容易にすることができ、このＬＡＮ（１１５２）は、また無線アダプター（１１５６）と通信するためにそれに設置されている無線アクセスポイントを含む。ＷＡＮネットワーキング環境で使われるとき、コンピューター（１１０２）は、モデム（１１５８）を含むことができたり、ＷＡＮ（１１５４）上の通信サーバーに繋がったり、またはインターネットを通じる等、ＷＡＮ（１１５４）を通じて通信を設定するその他の手段を持つ。内蔵型又は外付け型、そして、有線または無線装置になり得るモデム（１１５８）は、直列ポートインターフェース（１１４２）を通じてシステムバス（１１０８）に繋がる。ネットワーク化された環境において、コンピューター（１１０２）について説明されたプログラムモジュールまたはその一部分が、遠隔メモリー／保存装置（１１５０）に保存されることができる。図示されたネットワーク接続が例示的なものであり、複数のコンピューター間で通信リンクを設定する他の手段が使われることができるということは容易に理解できることである。

コンピューター（１１０２）は、無線通信で配置されて動作する任意の無線装置またはユニット、例えば、プリンター、スキャナー、デスクトップ及び／または携帯用コンピューター、ＰＤＡ（ｐｏｒｔａｂｌｅｄａｔａａｓｓｉｓｔａｎｔ）、通信衛星、無線で検出可能なタグに係る任意の装備または場所及、及び電話と通信する動作をする。これは、少なくともＷｉ－Ｆｉ（登録商標）及びブルートゥース無線技術を含む。従って、通信は、従来のネットワークのように予め定義された構造であったり、単純に少なくとも２つの装置の間でのアドホック通信（ａｄｈｏｃｃｏｍｍｕｎｉｃａｔｉｏｎ）になり得る。

Ｗｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）は、有線で繋がっていなくても、インターネット等への接続を可能にする。Ｗｉ－Ｆｉは、このような装置、例えば、コンピューターが室内及び室外で、つまり基地局の通話圏内のどこからでもデータを送受信できるようにするセル電話のような無線技術である。Ｗｉ－Ｆｉネットワークは、安全で信頼性があり、高速である無線接続を提供するためにＩＥＥＥ８０２．１１（ａ、ｂ、ｇ、その他）という無線技術を使う。コンピューターを互いに、インターネット及び有線ネットワーク（ＩＥＥＥ８０２．３またはイーサネットを使う）に接続するためにＷｉ－Ｆｉが使われることができる。Ｗｉ－Ｆｉネットワークは、非認可２．４や５ＧＨｚの無線帯域において、例えば、１１Ｍｂｐｓ（８０２．１１ａ）または５４Ｍｂｐｓ（８０２．１１ｂ）のデータレートで動作したり、両帯域（デュエル帯域）を含む製品において動作することができる。

本開示の技術分野における通常の知識を持つ者は情報及び信号が任意の多様な異なる技術及び手法を利用して示されることができることを理解できる。例えば、前記の説明において参照できるデータ、指示、命令、情報、信号、ビット、シンボル及びチップは、電圧、電流、電磁気派、磁場等または粒子、光学場等または粒子、またはこれらの任意の組み合わせによって示されることができる。

本開示の技術分野において通常の知識を持つ者は、ここに開示された実施例に係る説明で取り挙げられた多様な例示的な論理ブロック、モジュール、プロセッサー、手段、回路、アルゴリズム段階が電子ハードウェア、（利便性のために、ここでは「ソフトウェア」と称される）多様な形のプログラムまたは設計コード、またはこれらすべての結合により実装されることができることを理解できるだろう。ハードウェア及びソフトウェアのこのような相互互換性を明確に説明するために、多様な例示的なコンポーネント、ブロック、モジュール、回路、及び段階がこれらの機能に着目して前記で一般的に説明された。このような機能がハードウェアやソフトウェアで実装されるかどうかは、特定のアプリケーションおよび全体システムに対して付与される設計上の制限によって決まる。本開示の技術分野において通常の知識を持つ者は、個々の特定のアプリケーションについて多様な手法で説明された機能を実現することができるが、このような実現の決定は、本開示の範囲を逸脱するものと解釈されてはならない。

ここに示された多様な実施例は、方法、装置、または標準プログラミング及び／またはエンジニアリング技術を使った製造物品（ａｒｔｉｃｌｅ）によって実現できる。用語「製造物品」は、任意のコンピューターで可読な装置からアクセス可能なコンピュータープログラム、キャリアー、または媒体（ｍｅｄｉａ）を含む。例えば、コンピューターで可読保存媒体は、磁気保存装置（例えば、ハードディスク、フロッピーディスク、磁気ストリップ等）、光学ディスク（例えば、ＣＤ、ＤＶＤ等）、スマートカード及びフラッシュメモリー装置（例えば、ＥＥＰＲＯＭ、カード、スティック、キードライブ等）を含むが、これらに限定されるものではない。また、ここに示されている多様は保存媒体は、情報を保存するための１つ以上の装置及び／または他の機械可読媒体を含む。

示されたプロセスにおける複数の段階の特定の順番または階層構造は、例示的なアプローチの一例であることを理解すべきである。設計上の優先順位に基づき、本開示の範囲内で、プロセスにおける段階の特定の順番または階層構造が再配列されることができることを理解すべきである。添付の方法請求項は、サンプルとしての順番で、多様な段階のエレメントを提供するが、示された特定の順番または階層構造に限定されることを意味するわけではない。

示された実施例に関する説明は、任意の本開示の技術分野において通常の知識を持つ者が、本開示を利用したり、または実施できるように提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者には明確に理解できるものであり、ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることができる。従って、本開示はここに示す実施例によって限定されるものではなく、ここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。

Claims

コンピューティング装置によって行われる、音声信号に関連するコンテンツを決定する方法であって、
音声信号を変換してテキスト情報を生成する段階、
複数のターゲット単語候補を決定する段階、
前記複数のターゲット単語候補と前記生成されたテキスト情報との比較に基づき、前記複数のターゲット単語候補の中からターゲット単語を決定する段階、及び
前記ターゲット単語に関連するコンテンツを決定する段階、
を含み、
前記複数のターゲット単語候補の中からターゲット単語を決定する段階は、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を付与する段階、及び
前記類似度に基づき、前記ターゲット単語候補の中から前記ターゲット単語を決定する段階
を含み、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を付与する段階は、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報のすべての単語との編集距離を演算する段階、及び
各ターゲット単語候補に対して演算された編集距離に基づき、前記各ターゲット単語候補に対して類似度を付与する段階
を含む、
方法。
請求項１において、
前記複数のターゲット単語候補を決定する段階は、
前記音声信号に関連するユーザー情報に基づき、前記複数のターゲット単語候補を決定する段階と、
前記生成されたテキスト情報から抽出されたコア単語（ｋｅｙｗｏｒｄ）の情報に基づき、前記複数のターゲット単語候補を決定する段階と、
のうち、少なくとも１つを含む、
方法。
請求項２において、
前記音声信号に関連するユーザー情報に基づき、前記複数のターゲット単語候補を決定する段階は、
ユーザーが使った音声認識モデルのタイプに係る情報に基づき、前記複数のターゲット単語候補を決定する段階
を含む、
方法。
請求項２において、
前記生成されたテキスト情報から抽出されたコア単語に係る情報に基づき、前記複数のターゲット単語候補を決定する段階は、
前記生成されたテキスト情報における単語の出現頻度を分析し、複数のコア単語を決定する段階、及び
前記複数のコア単語に基づき、前記複数のターゲット単語候補を決定する段階
を含む、
方法。
請求項４において、
前記生成されたテキスト情報における単語の出現頻度を分析し、複数のコア単語を抽出する段階は、
話題（ｔｏｐｉｃ）情報に基づき、前記生成されたテキスト情報を複数のテキスト部分に分ける段階、及び
前記分けられた複数のテキスト部分の各々における出現頻度を分析し、複数のコア単語を抽出する段階
を含む、
方法。
請求項１において、
前記テキスト情報の中に、コンテンツソース（ｓｏｕｒｃｅ）に係る単語又はコンテンツに関連する時間に係る単語が含まれている場合、前記複数のターゲット単語候補に含まれるか否かとは関係なく、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を前記ターゲット単語としてすぐに決定する段階
をさらに含む、
方法。
請求項１において、
前記各ターゲット単語候補に対して演算された編集距離に基づき、前記各ターゲット単語候補の類似度を付与する段階は、
各ターゲット単語候補に対して演算された編集距離をしきい値と比較する段階、及び
前記演算された前記編集距離が前記しきい値未満の場合、より高い類似度を付与する段階
を含む、
方法。
請求項１において、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を付与する段階は、
前記複数のターゲット単語候補がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含む場合、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語に対しては、直接的な演算を行わずに、最も高い類似度を付与する段階、
を含む、
方法。
請求項１において、
前記ターゲット単語に関連するコンテンツを決定する段階は、
複数のコンテンツ候補を決定する段階、及び
前記複数のコンテンツ候補の中から前記ターゲット単語に関連するコンテンツを決定する段階
を含む、
方法。
請求項９において、
前記複数のコンテンツ候補を決定する段階は、
ターゲット単語集合がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含む場合、前記コンテンツソースに係る単語又はコンテンツに関連する時間に係る単語に基づき、前記複数のコンテンツ候補を決定する段階を含み、
前記複数のコンテンツ候補の中から前記ターゲット単語に関連するコンテンツを決定する段階は、
前記複数のコンテンツ候補の中から前記ターゲット単語集合の他のターゲット単語に関連するコンテンツを決定する段階を含む、
方法。
請求項９において、
前記複数のコンテンツ候補を決定する段階は、
ターゲット単語集合がコンテンツソースに係る単語又はコンテンツに関連する時間に係る単語を含まない場合、ユーザーアカウント又はユーザーディバイスに係るコンテンツに基づき、前記複数のコンテンツ候補を決定する段階を含み、
前記複数のコンテンツ候補の中から前記ターゲット単語に関連するコンテンツを決定する段階は、
前記複数のコンテンツ候補の中から前記ターゲット単語集合の少なくとも１つのターゲット単語に関連するコンテンツを決定する段階を含む、
方法。
コンピューター可読保存媒体に保存されたコンピュータープログラムであって、前記コンピュータープログラムは、１つ以上のプロセッサーにおいて実行される場合、音声信号に関連するコンテンツを決定するための以下の動作を実行するが、前記動作は、
音声信号を変換してテキスト情報を生成する動作、
複数のターゲット単語候補を決定する動作、
前記複数のターゲット単語候補と前記生成されたテキスト情報との比較に基づき、前記複数のターゲット単語候補の中からターゲット単語を決定する動作、及び
前記ターゲット単語に関連するコンテンツを決定する動作
を含み、
前記複数のターゲット単語候補の中からターゲット単語を決定する動作は、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を付与する動作、及び
前記類似度に基づき、前記ターゲット単語候補の中から前記ターゲット単語を決定する動作
を含み、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を付与する動作は、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報のすべての単語との編集距離を演算する動作、及び
各ターゲット単語候補に対して演算された編集距離に基づき、前記各ターゲット単語候補に対し類似度を付与する動作
を含む、
コンピューター可読保存媒体に保存されたコンピュータープログラム。
コンピューティング装置であって、
少なくとも１つのプロセッサー、及び
メモリー
を含み、
前記少なくとも１つのプロセッサーは、
音声信号を変換してテキスト情報を生成し、
複数のターゲット単語候補を決定し、
前記複数のターゲット単語候補と前記生成されたテキスト情報との比較に基づき、前記複数のターゲット単語候補の中からターゲット単語を決定し、そして
前記ターゲット単語に関連するコンテンツを決定するように構成され、
前記複数のターゲット単語候補の中からターゲット単語を決定することは、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を付与すること、及び
前記類似度に基づき、前記ターゲット単語候補の中から前記ターゲット単語を決定すること
を含み、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報との類似度を付与することは、
前記複数のターゲット単語候補の各々に対し、前記テキスト情報のすべての単語との編集距離を演算すること、及び
各ターゲット単語候補に対して演算された編集距離に基づき、前記各ターゲット単語候補に対し類似度を付与すること
を含む、
装置。