JP2024514260A

JP2024514260A - 音声録音後の情報に基づいて生成された音声記録を提供する方法及びシステム

Info

Publication number: JP2024514260A
Application number: JP2023561860A
Authority: JP
Inventors: イ，スミ; シン，ジウン; チョン，イェリム; ファン，ギルファン; チェ，ジョンピル; チョン，ユジン; カン，ミョンフン; イ，ジンミョン; キム，トクス; チェ，ジョンミン; キム，ヒョンジン; ソン，ヨンス; ソン，デグン; イム，デヒョン; ペク，ソルギ; イ，ドンヨル; アン，ギベク; イ，ジェホン; チェ，ジンヒョン; イ，チャンギュ
Original assignee: Line Works; Naver Corp
Current assignee: Line Works; Naver Corp
Priority date: 2021-04-07
Filing date: 2022-03-22
Publication date: 2024-03-29
Also published as: KR20220139189A; WO2022215905A1; TW202240571A; TWI835098B

Abstract

【課題】少なくとも一つのコンピューティング装置により遂行される、音声録音後の情報に基づいて生成された音声記録を提供する方法を提供する。【解決手段】音声記録を提供する方法は、音声録音後に音声データと関連した情報を受信するステップと、音声データに対する音声－テキスト変換要請を受信するステップと、音声－テキスト変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録を出力するステップと、を含む。【選択図】図１

Description

本開示は、音声録音後の情報に基づいて生成された音声記録を提供する方法及びシステムに関し、具体的には、音声録音後に音声データと関連した情報を受信し、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録を提供する方法及びシステムに関する。

最近、スマートフォンやタブレットＰＣなどのようなモバイル電子機器の発達及び普及により、ユーザは、日常の中でモバイル電子機器を介して手軽く音声対話、テキスト、イメージなどの記録を生成／保存することができる。例えば、ユーザは、ノートアプリケーションや音声録音アプリケーションなどを使用して、会議、ミーティング、授業、インタビューなどを録音及び／又は録画することができる。また、ユーザは、モバイル電子機器を介して録音及び／又は録画しながら、当該録音及び／又は録画している内容に関してテキストを作成することで、当該内容に関するメモを入力できる。

また、音声－テキスト変換技術（すなわち、音声認識技術）の発展により、録音及び／又は録画により生成された音声録音に含まれた内容を、テキストに変換してユーザに提供できる。このとき、ユーザは、音声録音を直接的に聴取しなくても、変換されたテキストにより当該音声録音の内容を認知できる。しかしながら、音声録音の情報のみを利用して音声－テキスト変換を遂行する場合、音声認識の正確度を低下させるおそれがある。すなわち、音声録音に含まれた音声が不正確に変換されたテキストを、ユーザに提供するおそれがある。

本開示は、前記のような問題を解決するための音声記録を提供する方法、記録媒体に保存されたコンピュータプログラム及び装置（システム）を提供する。

本開示は、方法、装置（システム）又は読み取り可能な保存媒体に保存されたコンピュータプログラムを含む多様な方式により具現化できる。

本開示の一実施例によれば、少なくとも一つのコンピューティング装置により遂行される、音声録音後の情報に基づいて生成された音声記録を提供する方法は、音声録音後に音声データと関連した情報を受信するステップと、音声データに対する音声－テキスト変換要請を受信するステップと、音声－テキスト変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録を出力するステップと、を含む。

本開示の一実施例に係る音声記録を提供する方法をコンピュータで実行するための命令語を記録したコンピュータ読み取り可能な非一時的記録媒体が提供される。

本開示の一実施例に係る情報処理システムは、通信モジュールと、メモリと、メモリと連結され、メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサと、を含み、少なくとも一つのプログラムは、音声録音後に音声データと関連した情報を受信し、音声データに対する音声－テキスト変換要請を受信し、音声－テキスト変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて音声記録を生成するための命令語を含む。

本開示の一部の実施例において、ユーザは、音声録音に含まれた音声データの内容に対応する音声記録の提供を受けることができ、これにより、音声録音の内容を聴覚的かつ視覚的に認知できる。また、音声録音又は音声認識の後に、ユーザが入力した音声データと関連した情報に基づいて音声録音を変換することで、音声データがより正確に変換されたテキストを提供できる。

本開示の一部の実施例において、ユーザが、録音中にモバイルやＰＣを介したメモの作成が困難な場合、録音が終了した後に当該録音と関連したメモを作成すれば、作成されたメモに含まれたキーワードを抽出して録音ファイルの音声を再認識することで、音声の認識率を向上させることができる。

本開示の効果は、これに制限されず、言及されない他の効果等は、請求範囲の記載から本開示が属する技術分野における通常の知識を有した者（以下、「当業者」という）に明確に理解されるべきである。

本開示の実施例等は、以下の添付図面に基づいて説明される。ここで、類似の参照符号は類似の要素を示すが、これに限定されるものではない。
本開示の一実施例に係る音声録音後に作成された音声データと関連した情報に基づいて生成された音声記録を提供する例を示す図である。本開示の一実施例に係る音声記録提供サービスを提供するために、情報処理システムが複数のユーザ端末と通信可能であるように連結された構成を示す概要図である。本開示の一実施例に係るユーザ端末及び情報処理システムの内部構成を示すブロック図である。本開示の一実施例に係る音声記録を提供する方法を示すフローチャートである。本開示の一実施例に係る音声データに対する第１の音声記録が出力された後、音声データに関するメモが作成される例を示す図である。本開示の一実施例に係る音声データに含まれた少なくとも一部の音声に対する再変換結果として、第２の音声記録を出力する例を示す図である。本開示の一実施例に係る第１の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正情報によって生成された第２の音声記録を出力する例を示す図である。本開示の一実施例に係る音声録音後に作成された音声データに関するメモに基づいて生成された音声記録を出力する例を示す図である。本開示の一実施例に係る音声録音後に受信された一つ以上の参加者の情報及び／又は音声データに関する題目に基づいて生成された音声記録を出力する例を示す図である。本開示の一実施例に係る音声データの再変換及び／又は音声記録の編集過程を示すフローチャートである。本開示の一実施例に係る人工神経網モデルの例を示す図である。

以下、本開示の実施のための具体的な内容を添付図面に基づいて詳細に説明する。ただし、以下の説明では、本開示の要旨を不要に不明瞭にするおそれがある場合、公知の機能や構成に関する具体的な説明は省略する。

添付図面において、同一又は対応する構成要素には同一の参照符号が付与される。また、以下の実施例の説明において、同一又は対応する構成要素について重複する記述は省略され得る。しかしながら、構成要素に関する記述が省略されても、そのような構成要素が、ある実施例に含まれないものと意図してはならない。

開示の実施例の利点及び特徴、そしてそれらを達成する方法は、添付図面に基づいて後述する実施例を参照すれば明確になる。しかしながら、本開示は、以下で開示される実施例に限定されず、互いに異なる多様な形態で具現化され得る。ただし、本実施例は、本開示が完全になるようにし、本開示が当業者に発明のカテゴリを正確に認識させるために提供されるだけである。

本明細書で使用される用語について簡略に説明し、開示の実施例について具体的に説明する。本明細書で使用される用語は、本開示での機能を考慮しつつ、可能な限り現在広く使用される一般的な用語を選択したが、これは関連分野に従事する技術者の意図又は判例、新技術の出現などにより変化し得る。また、特定の場合は出願人が任意で選定した用語もあり得るが、これらの意味は当該発明の説明の部分において詳細に記載する。よって、本開示で使用される用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されるべきである。

本明細書では、文脈上において明確に特定しない限り、単数の表現は複数の表現を含み、複数の表現は単数の表現を含むことができる。明細書の全般に渡り、ある部分がある構成要素を「含む」とする際、これは特に反対の記載がない限り、他の構成要素を排除するものではなく、他の構成要素をさらに含むこともできることを意味する。

また、明細書で使用される「モジュール」又は「部」という用語は、ソフトウェアやハードウェア構成要素を意味し、「モジュール」又は「部」はある役割を遂行する。しかしながら、「モジュール」又は「部」はソフトウェアやハードウェアに限定される意味ではない。「モジュール」又は「部」は、アドレッシング可能な保存媒体にあるように構成してもよく、一つ又はそれ以上のプロセッサを再生させるように構成してもよい。したがって、一例として、「モジュール」又は「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素、タスク構成要素のような構成要素、並びに、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ又は変数のうちで少なくとも一つを含むことができる。構成要素と「モジュール」又は「部」は、内部で提供される機能はさらに小さい数の構成要素及び「モジュール」又は「部」で結合されたり、追加的な構成要素と「モジュール」又は「部」にさらに分離されたりできる。

本開示の一実施例によれば、「モジュール」又は「部」はプロセッサ及びメモリで具現化され得る。「プロセッサ」は汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、制御器、マイクロ制御器、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境では、「プロセッサ」は特定用途向け半導体（ＡＳＩＣ）、プログラム可能なロジックデバイス（ＰＬＤ）、フィールドプログラム可能なゲートアレイ（ＦＰＧＡ）等を指すこともできる。「プロセッサ」は、例えば、ＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサの組合せ、ＤＳＰコアと結合した一つ以上のマイクロプロセッサの組合せ、若しくは、任意の他のそのような構成等の組合せのような処理デバイスの組合せを指すこともできる。また、「メモリ」は電子情報を保存可能な任意の電子コンポーネントを含むように広く解釈されるべきである。「メモリ」は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＮＶＲＡＭ（Non-Volatile Random Access Memory）、ＰＲＯＭ（Programmable Read-Only Memory）、ＥＰＲＯＭ（Erasable Programmable Read-Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Reda-Only Memory）、フラッシュメモリ、磁気又は光学データ保存装置、レジスタなどのようなプロセッサ－読み取り可能な媒体の多様な類型を指すこともできる。プロセッサがメモリから情報を読み取るか／メモリに読み取った情報を記録できる場合、メモリはプロセッサと電子通信状態にあると言われる。プロセッサに集積されたメモリはプロセッサと電子通信状態にある。

本開示において、「音声データ」は、音声録音により生成／保存されたデータを含むことができる。ここで、音声録音は音声データを指すことができ、音声データは音声録音を指すことができる。一実施例において、音声データは、一つ以上の音声を含むことができる。ここで、一つ以上の音声は、音声データの複数の区間の少なくとも一つの区間に対応するデータを称することができる。代替的又は付加的に、一つ以上の音声は、音声データに含まれた話者の各々の音声、音声データ、発話及び／又は発話データを指すことができる。本開示において、音声データ及び／又は音声に関する情報は、音声それ自体及び／又は音声を示すデータ（例えば、ベクトルデータ）を含むことができる。

本開示において、「音声記録」は、音声録音に含まれた発話内容がテキストに変換されることにより生成された記録を指すことができる。ここで、第１の音声記録は、音声録音後に受信された音声データと関連した情報を反映しなくて生成された音声記録を指すことができ、第２の音声記録は、音声録音後に受信された音声データと関連した情報を反映して生成された音声記録を指すことができるが、これに限定されるものではない。

図１は、本開示の一実施例に係る音声録音後に作成された音声データと関連した情報に基づいて生成された音声記録１２２を提供する例を示す図である。図１に示す画面は、ユーザがユーザ端末（例えば、スマートフォン、タブレットＰＣ、デスクトップなど）を介して、音声録音アプリケーション、メモアプリケーション及び／又はノートアプリケーションなどの記録アプリケーションを実行し、音声データに関する音声記録１２２の提供を受ける例を示す。一実施例において、ユーザは、こうした記録アプリケーションにより、音声録音に含まれた音声データに対応するテキストの提供を受けることができる。

ユーザ端末（例えば、ユーザ端末の少なくとも一つのプロセッサなど）は、音声記録を提供するために、音声録音後に音声データと関連した情報を受信できる。例えば、ユーザ端末は、音声録音後に入力装置（例えば、キーボード、マウス、マイクなど）を介して、ユーザから入力される音声データと関連した情報を受信できる。付加的又は代替的に、ユーザ端末は、音声録音後に保存装置に保存された音声データと関連した情報を保存装置から受信できる。ここで、音声データと関連した情報は、音声データに含まれたり、音声データを示したり、特徴化したりできる任意の情報を指すことができるが、例えば、音声データに関するメモ１１２、１１４、音声データに関する題目１１６、音声データに含まれた音声と関連した一つ以上の参加者に関する情報１１８などを含むことができる。付加的又は代替的に、音声データと関連した情報は、音声データと関連した情報から抽出された一つ以上のキーワードを含むことができる。付加的又は代替的に、音声データと関連した情報は、既存の音声記録に含まれたテキストのうちで抽出された一つ以上のキーワードを含むことができる。

ユーザ端末は、音声データに対する音声－テキスト変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録１２２を出力できる。例えば、ユーザ端末は、音声録音に対する変換要請（又は、再変換要請）を示すアイコン１２０を選択するユーザ入力を受信し、これに応じて、音声記録１２２に含まれた少なくとも一つのテキストをディスプレイ上に表示できる。ここで、音声記録１２２は、情報処理システムの少なくとも一つのプロセッサ及び／又はユーザ端末の少なくとも一つのプロセッサにより生成できる。

一実施例において、音声記録１２２は、少なくとも一部の音声に関する情報及び音声データと関連した情報を、音声－テキスト転写モデル（speech-to-text transcription）に入力することにより出力されるテキスト情報を含むことができる。ここで、音声－テキスト転写モデルは、参照音声及び参照音声と関連した参照情報を入力することで、参照音声に対応するテキストを出力するように学習されたモデルを含むことができる。例えば、参照音声と関連した参照情報は、参照音声と関連した一つ以上の参照キーワードを含むことができる。すなわち、音声－テキスト転写モデルは、参照音声及び参照音声と関連した一つ以上の参照キーワードを入力することで、参照音声に対応するテキストを出力するように学習されたモデルを含むことができる。

一実施例において、音声－テキスト転写モデルに入力された一つ以上のキーワードに音声認識加重値を適用することで、一つ以上のキーワードが、一つ以上のキーワードと異なるキーワードよりも高い優先順位として認識される。例えば、音声－テキスト転写モデルに入力されたキーワードの「デモ」に音声認識加重値を適用することで、キーワードの「デモ」が、キーワードの「ネモ」よりも高い優先順位として認識される。よって、音声－テキスト転写モデルは、入力される音声データに含まれた少なくとも一部の音声を、「ネモ」ではなく「デモ」として認識して、テキストに変換し、出力することができ、ユーザ端末は「ネモ」ではなく「デモ」を含む音声記録を出力できる。

図に示すように、ユーザ端末は、音声データと関連した情報をディスプレイ上に表示できる。例えば、音声データと関連した情報は、音声データの題目（「デモサイト会議」）１１６、音声データに含まれた音声と関連した一つ以上の参加者の情報（「ｕｓｅｒ１、ｕｓｅｒ２、ｕｓｅｒ３」）１１８、音声録音中に作成されたメモ１１２、及び音声録音後に作成されたメモ１１４を含むことができる。付加的又は代替的に、音声データと関連した情報は、音声録音後に受信された情報が反映されない音声記録（例えば、第１の音声記録）を含むことができる。こうした音声録音後に受信された情報が反映されない音声記録もディスプレイ上に表示できる。その後、音声録音に対する変換要請（又は、再変換要請）を示す「再変換」アイコン１２０に対するユーザのタッチ入力に応じて、ユーザ端末は、音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録（例えば、第２の音声記録）１２２をディスプレイ上に表示できる。また、ユーザ端末は、「音声記録の再変換が完了しました。」を含むポップアップメッセージ１２４を出力できる。

以上で説明した実施例等によれば、ユーザは、音声録音に含まれた音声データの内容に対応する音声記録の提供を受けることができ、これにより、音声録音の内容を聴覚的かつ視覚的に認知できる。また、音声録音又は音声認識の後に、ユーザが入力した音声データと関連した情報に基づいて音声録音を変換することで、音声データがより正確に変換されたテキストを提供できる。

図２は、本開示の一実施例に係る音声記録提供サービスを提供するために、情報処理システム２３０が複数のユーザ端末２１０＿１、２１０＿２、２１０＿３と通信可能であるように連結された構成を示す概要図である。情報処理システム２３０は、音声記録提供サービスを提供できるシステム、音声録音、メモ、ノートなどのような記録サービスを提供できるシステム、及び／又は音声－テキスト変換サービスを提供できるシステムを含むことができる。一実施例において、情報処理システム２３０は、音声記録提供サービス、記録サービス及び／又は音声－テキスト変換サービスと関連したコンピュータ実行可能なプログラム（例えば、ダウンロード可能なアプリケーション）や、データを保存、提供及び実行できる一つ以上のサーバ装置及び／又はデータベースや、クラウドコンピューティング（cloud computing）サービス基盤の一つ以上の分散コンピューティング装置及び／又は分散データベースを含むことができる。例えば、情報処理システム２３０は、音声記録提供サービス、記録サービス及び／又は音声－テキスト変換サービスのための別のシステム（例えば、サーバ）などを含むことができる。

情報処理システム２３０により提供される音声記録提供サービス、記録サービス、音声－テキスト変換サービスなどは、複数のユーザ端末２１０＿１、２１０＿２、２１０＿３の各々に設置された音声録音アプリケーション、メモアプリケーション、ノートアプリケーション、音声－テキスト変換アプリケーションなどを介してユーザに提供される。例えば、情報処理システム２３０は、音声録音アプリケーションなどを介して、ユーザ端末２１０＿１、２１０＿２、２１０＿３から受信される音声－テキスト変換要請に対応する情報を提供したり、対応する処理を遂行したりできる。

複数のユーザ端末２１０＿１、２１０＿２、２１０＿３は、ネットワーク２２０を介して情報処理システム２３０と通信できる。ネットワーク２２０は、複数のユーザ端末２１０＿１、２１０＿２、２１０＿３及び情報処理システム２３０間の通信が可能であるように構成できる。ネットワーク２２０は、設置環境に応じて、例えば、イーサネット（Ethernet）（登録商標）、ＰＬＣ（Power Line Communication）、電話線通信装置及びＲＳ－ｓｅｒｉａｌ通信などのような有線ネットワーク、移動通信網、ＷＬＡＮ（Wireless LAN）、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）及びＺｉｇＢｅｅ（登録商標）などのような無線ネットワーク又はその組合せからなることができる。通信方式は制限されず、ネットワーク２２０を含むことができる通信網（例えば、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など）を活用する通信方式だけでなく、ユーザ端末２１０＿１、２１０＿２、２１０＿３間の近距離無線通信も含まれ得る。

図２では、携帯電話端末２１０＿１、タブレット端末２１０＿２及びＰＣ端末２１０＿３をユーザ端末の例として示したが、これに限定されず、ユーザ端末２１０＿１、２１０＿２、２１０＿３は、有線及び／又は無線通信が可能であり、音声録音アプリケーションなどがインストールされて実行できる任意のコンピューティング装置であり得る。例えば、ユーザ端末は、スマートフォン、携帯電話、ナビゲーション、デスクトップコンピュータ、ラップトップコンピュータ、デジタル放送用端末、ＰＤＡ（Personal Digital Assistants）、ＰＭＰ（Portable Multimedia Player）、タブレットＰＣ、ゲームコンソール（game console）、ウェアラブルデバイス（wearable device）、ＩｏＴ（internet of things）デバイス、ＶＲ（virtual reality）デバイス、ＡＲ（augmented reality）デバイスなどを含むことができる。また、図２では、３つのユーザ端末２１０＿１、２１０＿２、２１０＿３がネットワーク２２０を介して情報処理システム２３０と通信するものを示したが、これに限定されず、異なる数のユーザ端末がネットワーク２２０を介して情報処理システム２３０と通信するように構成されることもできる。

一実施例において、情報処理システム２３０は、ユーザ端末２１０＿１、２１０＿２、２１０＿３から音声データに対する音声－テキスト変換要請を受信できる。また、情報処理システム２３０は、ユーザ端末２１０＿１、２１０＿２、２１０＿３から音声データ又は音声データと関連した情報の少なくとも一つを受信できる。音声－テキスト変換要請に応じて、情報処理システム２３０は、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて音声記録を生成し、生成された音声記録をユーザ端末２１０＿１、２１０＿２、２１０＿３に提供できる。代替的に、ユーザ端末２１０＿１、２１０＿２、２１０＿３が、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて音声記録を生成できる。

図３は、本開示の一実施例に係るユーザ端末２１０及び情報処理システム２３０の内部構成を示すブロック図である。ユーザ端末２１０は、音声録音アプリケーション、メモアプリケーション、ノートアプリケーション、音声－テキスト変換アプリケーションなどが実行可能であり、有／無線通信が可能な任意のコンピューティング装置を指すことができ、例えば、図２の携帯電話端末２１０＿１、タブレット端末２１０＿２及びラップトップコンピュータ端末２１０＿３などを含むことができる。図に示すように、ユーザ端末２１０は、メモリ３１２、プロセッサ３１４、通信モジュール３１６及び入出力インタフェース３１８を含むことができる。同様に、情報処理システム２３０は、メモリ３３２、プロセッサ３３４、通信モジュール３３６及び入出力インタフェース３３８を含むことができる。図３に示すように、ユーザ端末２１０及び情報処理システム２３０は、各々の通信モジュール３１６、３３６を用いて、ネットワーク２２０を介して情報及び／又はデータが通信できるように構成できる。また、入出力装置３２０は、入出力インタフェース３１８を介して、ユーザ端末２１０に情報及び／又はデータを入力したり、ユーザ端末２１０から生成された情報及び／又はデータを出力したりするように構成できる。

メモリ３１２、３３２は、非一時的な任意のコンピュータ読み取り可能な記録媒体を含むことができる。一実施例によれば、メモリ３１２、３３２は、ＲＡＭ（random access memory）、ＲＯＭ（read only memory）、ディスクドライブ、ＳＳＤ（solid state drive）及びフラッシュメモリ（flash memory）などのような永久的な大容量保存装置（permanent mass storage device）を含むことができる。他の例として、ＲＯＭ、ＳＳＤ、フラッシュメモリ及びディスクドライブなどのような永久的な大容量保存装置は、メモリとは区分される別の永久保存装置としてユーザ端末２１０又は情報処理システム２３０に含まれることができる。また、メモリ３１２、３３２には、運営体制と少なくとも一つのプログラムコード（例えば、音声録音アプリケーション、メモアプリケーション、ノートアプリケーション、音声－テキスト変換アプリケーションなどのためのコード）が保存され得る。

このようなソフトウェア構成要素は、メモリ３１２、３３２とは別のコンピュータ読み取り可能な記録媒体からローディングできる。このような別のコンピュータ読み取り可能な記録媒体は、このようなユーザ端末２１０及び情報処理システム２３０に直接連結可能な記録媒体を含むことができるが、例えば、フロッピードライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ及びメモリカードなどのようなコンピュータ読み取り可能な記録媒体を含むことができる。他の例として、ソフトウェア構成要素等は、コンピュータ読み取り可能な記録媒体ではなく、通信モジュール３１６、３３６を介してメモリ３１２、３３２にローディングされることもできる。例えば、少なくとも一つのプログラムは、開発者又はアプリケーションの設置ファイルを配信するファイル配信システムが、ネットワーク２２０を介して提供するファイルにより設置されるコンピュータプログラム（例えば、音声録音アプリケーション、メモアプリケーション、ノートアプリケーション、音声－テキスト変換アプリケーションなど）に基づいてメモリ３１２、３３２にローディングされることができる。

プロセッサ３１４、３３４は、基本的な算術、ロジック及び入出力演算を遂行することで、コンピュータプログラムの命令を処理するように構成できる。命令は、メモリ３１２、３３２又は通信モジュール３１６、３３６により、プロセッサ３１４、３３４に提供され得る。例えば、プロセッサ３１４、３３４は、メモリ３１２、３３２のような記録装置に保存されたプログラムコードによって受信される命令を実行するように構成できる。

通信モジュール３１６、３３６は、ネットワーク２２０を介して、ユーザ端末２１０と情報処理システム２３０とが互いに通信するための構成や機能を提供でき、ユーザ端末２１０及び／又は情報処理システム２３０が、他のユーザ端末又は他のシステム（例えば、別のクラウドシステムなど）と通信するための構成や機能を提供できる。一例として、ユーザ端末２１０のプロセッサ３１４がメモリ３１２などのような記録装置に保存されたプログラムコードによって生成した要請又はデータ（例えば、音声データに対する音声－テキスト変換要請など）は、通信モジュール３１６の制御により、ネットワーク２２０を介して情報処理システム２３０に伝達され得る。反対に、情報処理システム２３０のプロセッサ３３４の制御により提供される制御信号や命令が、通信モジュール３３６及びネットワーク２２０を経て、ユーザ端末２１０の通信モジュール３１６を介してユーザ端末２１０に受信され得る。例えば、ユーザ端末２１０は、情報処理システム２３０から通信モジュール３１６を介して、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録などを受信できる。

入出力インタフェース３１８は、入出力装置３２０とのインタフェースのための手段であり得る。一例として、入力装置はオーディオセンサー及び／又はイメージセンサーを含むカメラ、キーボード、マイクロホン、マウスなどのような装置を含み、出力装置はディスプレイ、スピーカー、ハプティック（触覚）フィードバックデバイス（haptic feedback device）などのような装置を含むことができる。他の例として、入出力インタフェース３１８は、タッチスクリーンなどのように入力及び出力を遂行するための構成又は機能が一つで統合された装置とのインタフェースのための手段であり得る。図３では、入出力装置３２０がユーザ端末２１０に含まれないように示したが、これに限定されず、ユーザ端末２１０と一体に構成することもできる。また、情報処理システム２３０の入出力インタフェース３３８は、情報処理システム２３０と連結するか、又は、情報処理システム２３０が含むことのできる入力や出力のための装置（図示せず）とのインタフェースのための手段であり得る。図３では、入出力インタフェース３１８、３３８がプロセッサ３１４、３３４と別に構成される要素として示したが、これに限定されず、入出力インタフェース３１８、３３８がプロセッサ３１４、３３４に含まれるように構成することもできる。

ユーザ端末２１０及び情報処理システム２３０は、図３に示す構成要素よりも多くの構成要素を含むことができる。しかしながら、大部分の従来技術的構成要素を明確に示す必要はない。一実施例によれば、ユーザ端末２１０は、前述した入出力装置３２０の少なくとも一部を含むように具現化できる。また、ユーザ端末２１０は、トランシーバー（transceiver）、ＧＰＳ（Global Positioning system）モジュール、カメラ、各種センサー及びデータベースなどのような他の構成要素をさらに含むことができる。例えば、ユーザ端末２１０がスマートフォンである場合、一般にスマートフォンが有する構成要素を含むことができ、例えば、加速度センサー、ジャイロセンサー、マイクモジュール、カメラモジュール、各種物理的なボタン、タッチパネルを用いたボタン、入出力ポート及び振動のための振動器などのような多様な構成要素がユーザ端末２１０にさらに含まれるように具現化できる。

一実施例によれば、ユーザ端末２１０のプロセッサ３１４は、音声録音アプリケーション、メモアプリケーション、ノートアプリケーション、音声－テキスト変換アプリケーションなどが動作するように構成できる。このとき、当該アプリケーションと関連したプログラムコードをユーザ端末２１０のメモリ３１２にローディングできる。アプリケーションが動作している間に、ユーザ端末２１０のプロセッサ３１４は、入出力装置３２０から提供された情報及び／又はデータを、入出力インタフェース３１８を介して受信したり、通信モジュール３１６を介して情報処理システム２３０から情報及び／又はデータを受信したりでき、受信された情報及び／又はデータを処理して、メモリ３１２に保存できる。また、このような情報及び／又はデータは、通信モジュール３１６を介して情報処理システム２３０に提供され得る。

音声録音アプリケーションなどが動作している間に、プロセッサ３１４は、入出力インタフェース３１８と連結されたタッチスクリーン、キーボード、オーディオセンサー及び／又はイメージセンサーを含むカメラ、マイクロホンなどのような入力装置により入力又は選択された音声データ、テキスト、イメージ、映像などを受信でき、受信された音声データ、テキスト、イメージ及び／又は映像などをメモリ３１２に保存したり、通信モジュール３１６及びネットワーク２２０を介して情報処理システム２３０に提供したりできる。一実施例において、プロセッサ３１４は、タッチスクリーンやマウスなどのような入力装置３２０により、音声データと関連した情報、音声データに対する音声－テキスト変換要請などを受信でき、音声データと関連した情報、音声データに対する音声－テキスト変換要請などを、通信モジュール３１６及びネットワーク２２０を介して情報処理システム２３０に提供できる。

ユーザ端末２１０のプロセッサ３１４は、情報及び／又はデータを、入出力インタフェース３１８を介して入出力装置３２０に転送して出力できる。例えば、ユーザ端末２１０のプロセッサ３１４は、ディスプレイ出力可能装置（例えば、タッチスクリーンやディスプレイなど）、音声出力可能装置（例えば、スピーカー）などの出力装置３２０を介して処理された情報及び／又はデータを出力できる。一実施例において、プロセッサ３１４は、音声データに対する音声記録をユーザ端末２１０のディスプレイ上に表示できる。付加的に、プロセッサ３１４は、音声データに含まれた少なくとも一部の音声を、ユーザ端末２１０のスピーカーを介して出力できる。

情報処理システム２３０のプロセッサ３３４は、複数のユーザ端末２１０及び／又は複数の外部システムから受信された情報及び／又はデータを管理、処理及び／又は保存するように構成できる。プロセッサ３３４により処理された情報及び／又はデータは、通信モジュール３３６及びネットワーク２２０を介してユーザ端末２１０に提供できる。一実施例において、情報処理システム２３０のプロセッサ３３４は、音声録音後に音声データと関連した情報を受信し、音声データに対する音声－テキスト変換要請を受信し、音声－テキスト変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて音声記録を生成し、生成された音声記録を、通信モジュール３３６及びネットワーク２２０を介してユーザ端末２１０に提供できる。

例えば、プロセッサ３３４は、音声録音後に作成された音声データに関するメモ（例えば、音声データ内の特定の区間に含まれた音声と関連したメモ）を利用して、特定の区間に含まれた音声に対する音声－テキスト変換を行うことで、特定の区間に含まれた音声に対応するテキスト情報を含む音声記録が生成できる。代替的又は付加的に、プロセッサ３３４は、少なくとも一部の音声に関する情報及び音声データと関連した情報を音声－テキスト転写モデルに入力することで、少なくとも一部の音声に関する情報に対応するテキスト情報を含む音声記録が生成できる。代替的又は付加的に、プロセッサ３３４は、音声－テキスト転写モデルに入力された一つ以上のキーワードに音声認識加重値を適用し、一つ以上のキーワードを、一つ以上のキーワードと異なるキーワードよりも高い優先順位として認識できる。代替的又は付加的に、プロセッサ３３４は、音声データと関連した情報を受信する前に、音声データに含まれた少なくとも一部の音声に対する音声－テキスト変換により第１の音声記録を生成し、音声データに対する音声－テキスト再変換要請を受信し、音声－テキスト再変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて第２の音声記録を生成できる。

図４は、本開示の一実施例に係る音声記録を提供する方法４００を示すフローチャートである。一実施例において、音声記録を提供する方法４００は、プロセッサ（例えば、ユーザ端末及び／又は情報処理システムの少なくとも一つのプロセッサ）により遂行できる。図に示すように、音声記録を提供する方法４００は、プロセッサが音声録音後に音声データと関連した情報を受信することにより開始することができる（Ｓ４１０）。ここで、音声録音後に受信された音声データと関連した情報は、音声録音後に作成された音声データに関するメモを含むことができる。付加的又は代替的に、音声データと関連した情報は、音声データに含まれた音声と関連した一つ以上の参加者に関する情報を含むことができる。付加的又は代替的に、音声データと関連した情報は、音声データに関する題目を含むことができる。

プロセッサは、音声データに対する音声－テキスト変換要請を受信できる（Ｓ４２０）。音声－テキスト変換要請に応じて、プロセッサは、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録を出力できる（Ｓ４３０）。

一実施例において、音声記録は、少なくとも一部の音声に関する情報及び音声データと関連した情報を音声－テキスト転写モデルに入力することにより出力されるテキスト情報を含むことができる。ここで、音声－テキスト転写モデルは、参照音声及び参照音声と関連した参照情報を入力することで、参照音声に対応するテキストを出力するように学習できる。このとき、音声データと関連した情報は、音声データと関連した情報から抽出された一つ以上のキーワードを含み、参照音声と関連した参照情報は、参照音声と関連した一つ以上の参照キーワードを含むことができる。

また、音声－テキスト転写モデルに入力された一つ以上のキーワードに音声認識加重値を適用することで、一つ以上のキーワードを、一つ以上のキーワードと異なるキーワードよりも高い優先順位として認識できる。ここで、一つ以上のキーワードは、人工神経網モデル、機械学習モデル、キーワード抽出アルゴリズムなどを利用して、音声データと関連した情報から抽出された有意味なキーワードに該当できる。キーワード抽出アルゴリズムの一例として、現在録音によく使用されたキーワード、他の文書（録音）と比較して現在録音でより多く使用されたキーワード、他の文書（録音）で使用されず、現在録音で初めて使用されたキーワードなどを、有意味なキーワードとして抽出するアルゴリズムなどが用いられるが、これに限定されるものではない。

一実施例において、音声録音後に作成された音声データに関するメモは、音声データ内の特定の区間に含まれた音声と関連付けられる。このとき、音声記録は、特定の区間と関連して作成されたメモを利用した、特定の区間に含まれた音声に対する音声－テキスト変換により生成されたテキスト情報を含むことができる。

一実施例において、プロセッサは、音声データと関連した情報を受信する前に、音声データに含まれた少なくとも一部の音声に対する音声－テキスト変換により生成された第１の音声記録を出力できる。その後、プロセッサは、第１の音声記録を生成した後に音声データと関連した情報を受信し、音声データに対する音声－テキスト再変換要請を受信できる。音声－テキスト再変換要請に応じて、プロセッサは、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された第２の音声記録を音声記録として出力できる。このとき、音声データと関連した情報は、第１の音声記録に含まれたテキストのうちで抽出された一つ以上のキーワードを含むことができる。代替的又は付加的に、音声データと関連した情報は、第１の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正の情報を含むことができる。このとき、音声－テキスト転写モデルでの音声認識加重値を、修正されたテキストに適用できる。

図５は、本開示の一実施例に係る音声データに対する第１の音声記録５１０が出力された後、音声データに関するメモ５１６が作成される例を示す図である。ユーザは、ユーザ端末を介して、音声録音前又は音声録音中に、当該音声録音と関連した情報（すなわち、音声データと関連した情報）５１２、５１４を入力できる。例えば、ユーザは、音声録音を開始する前に、当該音声録音の題目に関する情報及び／又は当該音声録音に関する参加者の情報５１４を入力できる。他の例として、ユーザは、音声録音中に当該音声録音と関連したメモ（すなわち、音声データと関連したメモ）５１２を入力できる。プロセッサ（例えば、ユーザ端末の少なくとも一つのプロセッサ）は、音声録音前又は音声録音中に、このように入力される音声データと関連した情報５１２、５１４を受信できる。

プロセッサは、音声データに含まれた少なくとも一部の音声に対する音声－テキスト変換により生成された第１の音声記録５１０を出力できる。一実施例において、第１の音声記録５１０は、音声録音前又は音声録音中に受信された音声データと関連した情報５１２、５１４に基づいて生成できる。第１の音声記録５１０を出力するために、音声録音前又は音声録音中に受信された音声データと関連した情報５１２、５１４から一つ以上のキーワードを抽出できる。第１の音声記録５１０は、抽出された一つ以上のキーワード及び音声データを音声－テキスト転写モデルに入力することにより出力されるテキスト情報を含むことができる。例えば、第１の音声記録５１０は、音声－テキスト転写モデルを介して抽出された一つ以上のキーワードに音声認識加重値が適用され、加重値が適用されたキーワードを高い優先順位として認識することにより生成できる。

音声録音中に作成されたメモ５１２からキーワードの「企画」が抽出され、抽出されたキーワードの「企画」及び音声データに含まれた少なくとも一部の音声に関する情報が音声－テキスト転写モデルに入力され得る。音声－テキスト転写モデルを介してキーワードの「企画」に音声認識加重値が適用され、加重値が適用されたキーワードの「企画」を、他のキーワードよりも高い優先順位として認識できる。これにより、音声－テキスト転写モデルから少なくとも一部の音声に関する情報に対応する「企画案」を出力でき、「企画案」が含まれた第１の音声記録５１０を生成できる。

ユーザは、ユーザ端末を介して、音声録音後にも当該音声録音と関連した情報（すなわち、音声データと関連した情報）５１６を入力できる。例えば、ユーザは、音声録音後に当該音声録音に関するメモ（すなわち、音声データと関連したメモ）５１６を入力できる。他の例として、ユーザは、音声録音後に当該音声録音に関する参加者の情報を入力（又は、追加入力）できる。図５に示すように、ユーザは、音声録音後に、第１の音声記録５１０が生成／出力されてから音声データに関するメモ５１６を作成／入力することができる。したがって、プロセッサは、音声録音後に、第１の音声記録５１０が生成／出力されてからユーザにより作成／入力された音声データに関するメモ５１６を受信できる。

図５では、第１の音声記録５１０が生成及び／又は出力された後、プロセッサが音声データに関するメモ５１６を受信する例を示しているが、これに限定されるものではない。例えば、音声録音後、第１の音声記録が生成及び／又は出力される前に、プロセッサが音声データに関するメモを受信できる。

図６は、本開示の一実施例に係る音声データに含まれた少なくとも一部の音声に対する再変換結果として、第２の音声記録６２２を出力する例を示す図である。一実施例において、プロセッサ（例えば、ユーザ端末の少なくとも一つのプロセッサ）は、音声録音後に音声データと関連した情報を受信できる。ここで、音声録音後に受信された音声データと関連した情報は、音声録音後に作成された音声データと関連したメモ６１６、音声録音後に作成された音声データに関する題目、音声データに含まれた音声と関連した一つ以上の参加者に関する情報、第１の音声記録（又は、第１の音声記録に含まれたテキストのうちで抽出された一つ以上のキーワード）６１８などを含むことができる。例えば、プロセッサは、第１の音声記録６１８が生成／出力された後に、音声データと関連した情報を受信できる。

プロセッサは、音声データに対する音声－テキスト再変換要請を受信できる。音声－テキスト再変換要請に応じて、プロセッサは、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報６１６に基づいて生成された第２の音声記録６２２を音声記録として出力できる。ここで、音声データと関連した情報は、第１の音声記録６１８に含まれたテキストのうちで抽出される一つ以上のキーワードを含むことができる。第２の音声記録６２２を生成するために、第１の音声記録６１８に含まれたテキストのうちでキーワードの「デモ」が抽出され、音声録音後に受信された音声データと関連した情報６１６からキーワードの「ウェブ」、「追加」、「デモ」を抽出できる。その後、抽出されたキーワード及び音声データに含まれた少なくとも一部の音声に関する情報を音声－テキスト転写モデルに入力することにより出力されるテキスト情報を含む第２の音声記録６２２が生成できる。

第１の動作６１０に示すように、音声－テキスト再変換要請を示す「再変換」アイコン６１２に対するユーザのタッチ入力などに応じて、プロセッサは、音声記録の再変換の可否に関するポップアップメッセージ（「音声記録を再変換しますか？」）６１４を出力できる。出力されたポップアップメッセージ６１４に対するユーザの応答に基づいて、プロセッサは、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された第２の音声記録６２２を出力できる。したがって、第１の動作６１０では、不正確な音声－テキスト変換により、「今回のネモではウェべで使用する機能を超過しました。」というテキストを含む第１の音声記録６１８がディスプレイ上に表示されるのに対し、第２の動作６２０では、正確な音声－テキスト変換により、「今回のデモではウェブで使用する機能を追加しました。」というテキストを含む第２の音声記録６２２がディスプレイ上に表示される。

図７は、本開示の一実施例に係る第１の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正情報によって生成された第２の音声記録を出力する例を示す図である。一実施例において、音声データと関連した情報は、第１の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正情報を含むことができる。このとき、修正情報により、第１の音声記録に含まれたテキストのうちで修正されたテキストに音声－テキスト転写モデルでの音声認識加重値を適用できる。すなわち、第１の音声記録に含まれたテキストのうちで修正されたテキストがキーワードとして抽出され、少なくとも一部の音声に関する情報及び修正されたテキスト（すなわち、抽出されたキーワード）が音声－テキスト転写モデルに入力されることで、音声認識加重値を、修正されたテキスト（すなわち、抽出されたキーワード）に適用できる。このとき、音声－テキスト変換において、修正されたテキスト（すなわち、抽出されたキーワード）を、他のキーワードよりも高い優先順位として認識できる。

第１の動作７１０に示すように、プロセッサ（例えば、ユーザ端末の少なくとも一つのプロセッサ）は、音声録音に対する音声－テキスト変換により生成された第１の音声記録を出力できる。第１の音声記録は、「先月論議されたネモサイト共有お願いします。」７１２及び「今回のネモではウェベで使用する機能を超過しました。」７１４のように、音声データが誤変換されたテキストを含むことができる。ユーザは、第１の音声記録に含まれたテキストの少なくとも一部を修正できる。例えば、ユーザは、第１の音声記録に含まれたテキストの少なくとも一部を修正するために、「編集」アイコン７１６を選択（例えば、クリック入力）することができる。これに応じて、プロセッサは、編集モードに転換することにより、第１の音声記録に含まれたテキストの少なくとも一部を修正できるインタフェースをユーザに提供できる。その後、ユーザは、第１の音声記録に含まれた「先月論議されたネモサイト共有お願いします。」７１２において、「ネモ」を「デモ」に修正できる。

その後、ユーザは、「再変換」アイコン７１８を選択することにより、音声－テキスト再変換要請を遂行できる。プロセッサは、ユーザの音声－テキスト再変換要請に応じて、第１の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正情報に基づいた音声－テキスト再変換により生成された第２の音声記録を出力できる。例えば、ユーザが第１の動作７１０において修正したテキストの「デモ」がキーワードとして抽出され、少なくとも一部の音声に関する情報及び修正されたテキストの「デモ」が音声－テキスト転写モデルに入力されることで、音声認識加重値を、修正されたテキストの「デモ」に適用できる。これにより、第１の音声記録において「今回のネモではウェベで使用する機能を超過しました。」７１４に変換された音声が、第２の音声記録では「今回のデモではウェブで使用する機能を追加しました。」７２２に変換できる。したがって、第２の動作７２０に示すように、「今回のデモではウェブで使用する機能を追加しました。」７２２を含む第２の音声記録を生成でき、プロセッサは生成された第２の音声記録を出力できる。

図８は、本開示の一実施例に係る音声録音後に作成された音声データに関するメモ８１４に基づいて生成された音声記録を出力する例を示す図である。一実施例において、音声録音後に受信された音声データと関連した情報は、音声録音後に作成された音声データに関するメモ８１４を含むことができる。ここで、音声録音後に作成された音声データに関するメモ８１４は、音声データ内の特定の区間に含まれた音声と関連付けられる。このとき、音声記録は、特定の区間に含まれた音声と関連して作成されたメモを利用した、特定の区間に含まれた音声に対する音声－テキスト変換により生成されたテキスト情報を含むことができる。

第１の動作８１０に示すように、プロセッサ（例えば、ユーザ端末の少なくとも一つのプロセッサ）は、「今回のネモではウェベで使用する機能を超過しました。」８１２を含む第１の音声記録を出力できる。ユーザは、音声録音後に音声データの特定の区間及び／又は音声データに対する第１の音声記録の特定の区間に関してメモを作成／入力することができる。例えば、ユーザは、音声録音（又は、音声データ）から一部の区間（例えば、開始時点－終了時点間の区間、特定の時点）を選択して、当該区間に関するメモを作成／入力することができる。図に示すように、ユーザは、音声録音において「０１：０７」時点に対し、音声データに関するメモ８１４を作成／入力することができる。ここで、「０１：０７」時点は、第１の音声記録における「０１：０７」のテキスト区間８１２と対応できる。このとき、プロセッサは、作成／入力されたメモ８１４を、対応する区間を示す時間情報（「０１：０７」）とともに出力できる。その後、ユーザは、「再変換」アイコン８１６を選択（例えば、クリック入力など）することで、当該音声録音に対する音声－テキスト再変換要請を遂行できる。

プロセッサは、ユーザの音声－テキスト再変換要請に応じて、音声録音後に「０１：０７」時点に対して作成された音声データに関するメモ８１４（すなわち、音声録音において「０１：０７」時点と関連した音声データに関するメモ）に基づいた音声－テキスト再変換により生成された第２の音声記録を出力できる。例えば、ユーザが第１の動作８１０において「０１：０７」時点に対して作成した音声データに関するメモ８１４からキーワードの「デモ」、「ウェブ」、「追加」がキーワードとして抽出され、抽出されたキーワードの「デモ」、「ウェブ」、「追加」及びメモ８１４と関連した特定の区間の音声が音声－テキスト転写モデルに入力されることで、音声認識加重値を、キーワードの「デモ」、「ウェブ」、「追加」に適用できる。これにより、第１の音声記録において「今回のネモではウェベで使用する機能を超過しました。」８１２に変換された音声を、第２の音声記録では「今回のデモではウェブで使用する機能を追加しました。」８２２に変換できる。

これに対し、当該メモ８１４と関連していない音声データ内の他の区間に対しては、メモ８１４から抽出されたキーワードの「デモ」、「ウェブ」、「追加」に音声認識加重値が適用されない。例えば、第１の音声記録において「先月論議されたネモサイト共有お願いします。」に変換された音声は、第２の音声記録において「先月論議されたデモサイト共有お願いします。」に再変換されず、そのまま「先月論議されたネモサイト共有お願いします。」８２４に変換される。すなわち、音声データに関するメモ８１４が音声データ内の特定の区間に関連して作成された場合、音声データに関するメモ８１４から抽出されたキーワードが、当該特定の区間のみに対して他のキーワードよりも高い優先順位として認識され、他の区間に対しては既存の優先順位と同様に認識されることを示す。したがって、第２の動作８２０に示すように、「今回のデモではウェブで使用する機能を追加しました。」８２２及び「先月論議されたネモサイト共有お願いします。」８２４を含む第２の音声記録を生成でき、プロセッサは生成された第２の音声記録を出力できる。

図９は、本開示の一実施例に係る音声録音後に受信された一つ以上の参加者の情報９１８及び／又は音声データに関する題目９２０に基づいて生成された音声記録を出力する例を示す図である。一実施例において、音声データと関連した情報は、音声データに含まれた音声と関連した一つ以上の参加者に関する情報を含むことができる。付加的又は代替的に、音声データと関連した情報は、音声データに関する題目を含むことができる。このとき、一つ以上の参加者に関する情報９１８及び／又は音声データに関する題目９２０から抽出された一つ以上のキーワードに、音声－テキスト転写モデルでの音声認識加重値を適用できる。

第１の動作９１０に示すように、プロセッサ（例えば、ユーザ端末の少なくとも一つのプロセッサ）は、音声録音に対する音声－テキスト変換により生成された第１の音声記録を出力できる。第１の音声記録は、「先月論議されたネモサイト共有お願いします。」９１２及び「今回のネモではウェベで使用する機能を超過しました。」９１４のように、音声データが誤変換されたテキストを含むことができる。ユーザは、音声録音後に一つ以上の参加者に関する情報９１８及び／又は音声データに関する題目９２０を作成／入力（例えば、新規入力、追加入力、修正入力など）することができる。例えば、ユーザは、「参加者追加」アイコン９１６を選択し、追加する参加者「ｕｓｅｒ１」、「ｕｓｅｒ２」、「ｕｓｅｒ３」の情報（例えば、名前、業務、年齢、職級、位置など）を選択（又は入力）することで、当該音声録音に関する参加者の情報を入力できる。

その後、ユーザは、「再変換」アイコン９２２を選択（例えば、クリック入力など）することで、当該音声録音に対する音声－テキスト再変換要請を遂行できる。プロセッサは、ユーザの音声－テキスト再変換要請に応じて、音声録音後に入力された一つ以上の参加者に関する情報９１８及び／又は音声データに関する題目９２０に基づいた音声－テキスト再変換により生成された第２の音声記録を出力できる。

音声－テキスト再変換のために、音声録音後に作成／入力された音声データに関する題目９２０及び／又は一つ以上の参加者に関する情報９１８から一つ以上のキーワードを抽出できる。例えば、ユーザが第１の動作９１０において参加者の情報として入力した「ｕｓｅｒ２」が、デモサイトの作業を遂行する者に該当する場合、このような「ｕｓｅｒ２」の情報に基づいて、「デモ」、「サイト」をキーワードとして抽出できる。付加的に、ユーザが第１の動作９１０において入力した音声録音の題目である「ウェブ機能追加会議」９２０からキーワードの「ウェブ」、「機能」、「追加」を抽出できる。

抽出されたキーワードの「デモ」、「サイト」、「ウェブ」、「機能」、「追加」及び少なくとも一部の音声に関する情報が音声－テキスト転写モデルに入力されることで、音声認識加重値をキーワードの「デモ」、「サイト」、「ウェブ」、「機能」、「追加」に適用できる。これにより、第１の音声記録において「先月論議されたネモサイト共有お願いします。」９１２に変換された音声を、第２の音声記録では「先月論議されたデモサイト共有お願いします。」９３２に変換できる。また、第１の音声記録において「今回のネモではウェベで使用する機能を超過しました。」９１４に変換された音声を、第２の音声記録では「今回のデモではウェブで使用する機能を追加しました。」９３４に変換できる。したがって、第２の動作９３０に示すように、「先月論議されたデモサイト共有お願いします。」９３２及び「今回のデモではウェブで使用する機能を追加しました。」９３４を含む第２の音声記録を生成でき、プロセッサは生成された第２の音声記録を出力できる。

図１０は、本開示の一実施例に係る音声データの再変換及び／又は音声記録の編集過程を示すフローチャートである。一実施例において、音声録音に対する音声－テキスト変換が完了して第１の音声記録が生成／出力された場合（Ｓ１０１０）、プロセッサ（例えば、ユーザ端末の少なくとも一つのプロセッサ）は、メモ再変換を案内するメッセージを出力できる（Ｓ１０２０）。例えば、プロセッサは、「メモを作成して再変換してください。」、「録音と関連したメモを作成して再変換すれば、認識率が高くなります。」などのような音声データに関するメモ作成及び／又は音声－テキスト再変換を誘導する案内メッセージを出力できる。

その後、プロセッサが、当該音声録音に対するユーザの再変換要請を受信できる（Ｓ１０２２）。一実施例において、当該音声録音に関して作成されたメモがある場合、プロセッサは、受信されたユーザの再変換要請に応じて、音声－テキスト再変換の可否を確認する再変換の可否に関する第１のポップアップメッセージ（例えば、再変換コンファームポップアップ）を出力できる（Ｓ１０２４）。例えば、プロセッサは、「音声記録を再変換しますか？」を含む第１のポップアップメッセージを出力できる。その後、プロセッサは、第１のポップアップメッセージに対するユーザの入力に基づいて、音声－テキスト再変換により生成された第２の音声記録及び／又は再変換完了を示す第２のポップアップメッセージを出力できる（Ｓ１０２６）。例えば、プロセッサは、第１のポップアップメッセージに対する肯定のユーザ入力（すなわち、再変換要請を示すユーザ入力）に基づいて、音声－テキスト再変換により生成された第２の音声記録及び／又は「音声記録の再変換が完了しました。」を含む第２のポップアップメッセージを出力できる。

これに対し、当該音声録音に関して作成されたメモがない場合、プロセッサは、受信されたユーザの再変換要請に応じて、メモ作成を誘導する第３のポップアップメッセージ（例えば、メモ作成案内ポップアップ）を出力できる（Ｓ１０２８）。例えば、プロセッサは、「メモを作成して再変換してください。」を含む第３のポップアップメッセージを出力できる。

他の実施例において、音声録音に対する音声－テキスト変換が完了して音声記録が生成／出力された場合（Ｓ１０１０）、プロセッサは、音声記録に対する編集要請を受信できる（Ｓ１０３０）。当該音声録音に対する再変換が遂行されない場合（すなわち、生成／出力された音声記録が第１の音声記録に該当する場合）、プロセッサは、受信された編集要請に応じて、再変換前の編集の可否に関する第４のポップアップメッセージを出力できる（Ｓ１０３２）。例えば、プロセッサは、受信された編集要請に応じて、「メモを作成して再変換後に編集してください」を含む第４のポップアップメッセージを出力できる。その後、第４のポップアップメッセージに対するユーザの編集要請を示す応答に基づいて、プロセッサは、音声記録に対して編集モードに転換することで、音声記録を編集できるインタフェースをユーザに提供できる。

これに対し、当該音声録音に対する再変換が既に遂行された場合（すなわち、生成／出力された音声記録が第２の音声記録に該当する場合）、プロセッサは、受信された編集要請に応じて、直ぐに音声記録に対して編集モードに転換することで、ユーザに音声記録を編集できるインタフェースを提供できる（Ｓ１０３４）。ユーザは、音声記録を編集できるインタフェースを介して、音声記録に含まれた複数のテキストのうちで、音声が誤変換された少なくとも一部のテキストを修正／編集することができる。

図１１は、本開示の一実施例に係る人工神経網モデル１１００の例を示す図である。人工神経網モデル１１００は、機械学習モデルの一例として、機械学習（Machine Learning）技術及び認知科学において、生物学的神経網の構造に基づいて具現化した統計学的学習アルゴリズム、又は、そのアルゴリズムを実行する構造であり得る。

一実施例によれば、人工神経網モデル１１００は、生物学的神経網のように、シナプスの結合によりネットワークを形成した人工ニューロンであるノード（Node）等がシナプスの加重値を繰り返し調整して、特定の入力に対応した正しい出力及び推論された出力間の誤差が減少するように学習することで、問題解決能力を持つ機械学習モデルを示すことができる。例えば、人工神経網モデル１１００は、機械学習やディープラーニングなどの人工知能学習法に使用される任意の確率モデル、ニューラルネットワークモデルなどを含むことができる。

一実施例によれば、人工神経網モデル１１００は、音声データに含まれた少なくとも一部の音声に関する情報及び音声データと関連した情報が入力されることで、少なくとも一部の音声に対応するテキストを出力するように構成された人工神経網モデルを含むことができる。ここで、音声データと関連した情報は、音声データに関するメモ、音声データに含まれた音声と関連した一つ以上の参加者に関する情報、音声データに関する題目、音声データと関連した情報から抽出された一つ以上のキーワード、第１の音声記録に含まれたテキストのうちで抽出された一つ以上のキーワード、第１の音声記録に含まれたテキストのうちで少なくとも一部のテキストに関する修正情報などを含むことができる。付加的又は代替的に、人工神経網モデル１１００は、音声データに含まれた少なくとも一部の音声に関する情報及び一つ以上のキーワードが入力されることで、一つ以上のキーワードが、他のキーワードよりも高い優先順位として認識されるように音声認識加重値を適用することで、少なくとも一部の音声に対応するテキストを出力するように構成された人工神経網モデルを含むことができる。

人工神経網モデル１１００は、多層のノード等及びこれら間の連結により構成された多層パーセプトロン（multilayer perceptron、MLP）で具現化される。本実施例に係る人工神経網モデル１１００は、ＭＬＰを含む多様な人工神経網モデル構造の一つを用いて具現化できる。図１１に示すように、人工神経網モデル１１００は、外部から入力信号又はデータ１１１０を受信する入力層１１２０と、入力データに対応する出力信号又はデータ１１５０を出力する出力層１１４０と、入力層１１２０及び出力層１１４０間に位置し、入力層１１２０から信号を受信して特性を抽出して、出力層１１４０に伝達するｎ個（ここで、ｎは正の整数）の隠れ層１１３０＿１乃至１１３０＿ｎとからなる。ここで、出力層１１４０は、隠れ層１１３０＿１乃至１１３０＿ｎから信号を受信して外部に出力する。

人工神経網モデル１１００の学習方法には、教師信号（正解）の入力によって問題の解決に最適化するように学習する教師あり学習（Supervised Learning）方法と、教師信号を必要としない教師なし学習（Unsupervised Learning）方法とがある。一実施例において、情報処理システムは、音声データに含まれた少なくとも一部の音声（又は、音声に関する情報）に対応するテキスト（又は、テキスト情報）を出力するように、人工神経網モデル１１００を教師あり学習及び／又は教師なし学習させることができる。例えば、情報処理システムは、参照音声及び参照音声と関連した参照情報を入力することで、参照音声に対応するテキストを出力するように、人工神経網モデル１１００を教師あり学習及び／又は教師なし学習させることができる。

このように学習された人工神経網モデル１１００は、情報処理システムのメモリ（図示せず）に保存でき、通信モジュール及び／又はメモリから受信された音声データに含まれた少なくとも一部の音声（又は、音声に関する情報）及び／又は音声データと関連した情報に応じて、音声データに含まれた少なくとも一部の音声（又は、音声に関する情報）に対応するテキスト（又は、テキスト情報）を出力できる。付加的又は代替的に、人工神経網モデル１１００は、音声データに含まれた少なくとも一部の音声（又は、音声に関する情報）に対応するテキスト（又は、テキスト情報）を含む音声記録を出力できる。

一実施例によれば、音声－テキスト転写を遂行する機械学習モデル、すなわち、人工神経網モデル１１００の入力変数は、音声データに含まれた少なくとも一部の音声（又は、音声に関する情報）であり得る。例えば、人工神経網モデル１１００の入力層１１２０に入力される入力変数は、音声データに含まれた少なくとも一部の音声を一つのベクトルデータ要素として構成した、ベクトル１１１０になり得る。音声データに含まれた少なくとも一部の音声入力に応じて、人工神経網モデル１１００の出力層１１４０から出力される出力変数は、少なくとも一部の音声（又は、音声に関する情報）に対応するテキスト（又は、テキスト情報）を示したり特徴化したりするベクトル１１５０になり得る。付加的又は代替的に、人工神経網モデル１１００の出力層１１４０は、少なくとも一部の音声（又は、音声に関する情報）に対応するテキスト（又は、テキスト情報）を含む音声記録を示したり特徴化したりするベクトルを出力するように構成できる。本開示において、人工神経網モデル１１００の出力変数は、以上で説明された類型に限定されず、少なくとも一部の音声（又は、音声に関する情報）に対応するテキスト（又は、テキスト情報）及び／又は音声記録を示す任意の情報／データを含むことができる。

さらに、人工神経網モデル１１００の出力層１１４０は、出力された音声－テキスト変換（又は、再変換）結果に対する信頼度及び／又は正確度を示すベクトルを出力するように構成できる。

このように、人工神経網モデル１１００の入力層１１２０及び出力層１１４０に複数の入力変数と対応する複数の出力変数が各々マッチングされ、入力層１１２０、隠れ層１１３０＿１乃至１１３０＿ｎ及び出力層１１４０に含まれたノード等間のシナプス値が調整されることで、特定の入力に対応した正しい出力が抽出されるように学習できる。このような学習過程により、人工神経網モデル１１００の入力変数の隠れ特性を把握でき、入力変数に基づいて計算された出力変数及び目標出力間の誤差が低減するように、人工神経網モデル１１００のノード等間のシナプス値（又は加重値）を調整できる。情報処理システム及び／又はユーザ端末は少なくとも一部の音声に関する情報及び音声データと関連した情報を、学習された人工神経網モデル１１００に入力することで、出力されるテキスト情報を利用して、音声データに対する音声記録を生成及び／又は出力することができる。

前述した方法は、コンピュータで実行するために、コンピュータ読み取り可能な記録媒体に保存されたコンピュータプログラムとして提供され得る。媒体は、コンピュータで実行可能なプログラムを継続的に保存し、又は、実行又はダウンロードのために一時保存するものであり得る。また、媒体は、単一又は多数のハードウェアが結合された形態の多様な記録手段又は保存手段であり得るが、あるコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散して存在するものであり得る。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスクや磁気テープのような磁気媒体、ＣＤ－ＲＯＭやＤＶＤのような光記録媒体、フロプティカルディスク（floptical disk）のような磁気－光媒体（magneto-optical medium）、ＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものが挙げられる。また、他の媒体の例としては、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給乃至流通するサイト、サーバなどで管理する記録媒体乃至保存媒体も挙げられる。

本開示の方法、動作、又は技法は、多様な手段により具現化できる。例えば、このような技法は、ハードウェア、ファームウェア、ソフトウェア、若しくは、これらの組合せで具現化できる。本願の開示により説明された多様な例示的な論理的ブロック、モジュール、回路、及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、若しくは、両方の組合せで具現化できることを、当業者であれば理解できるはずである。ハードウェア及びソフトウェアのこのような相互の代替を明確に説明するために、多様な例示的な構成要素、ブロック、モジュール、回路、及びステップが、それらの機能的観点から一般的に前述された。そのような機能が、ハードウェアとして具現化されるか、若しくは、ソフトウェアとして具現化されるかは、特定アプリケーション及び全体システムに付加される設計要求事項によって変化する。当業者は、各々の特定アプリケーションのために多様な方式により説明された機能を具現化することもできるが、そのような具現化は、本開示の範囲から逸脱するものと解釈してはならない。

ハードウェアの具現化において、技法の遂行に利用されるプロセッシングユニットは、一つ以上のＡＳＩＣ、ＤＳＰ、デジタル信号処理デバイス（digital signal processing devices、ＤＳＰＤ）、プログラム可能な論理デバイス（programmable logic devices、ＰＬＤ）、フィールドプログラム可能なゲートアレイ（field programmable gate arrays、ＦＰＧＡ）、プロセッサ、制御器、マイクロ制御器、マイクロプロセッサ、電子デバイス、本開示に説明された機能を遂行するように設計された他の電子ユニット、コンピュータ、若しくは、これらの組合せにおいても具現化され得る。

したがって、本開示により説明された多様な例示的な論理ブロック、モジュール、及び回路は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡや他のプログラム可能な論理デバイス、離散ゲートやトランジスタロジック、離散ハードウェアコンポーネント、若しくは、本願に説明された機能を遂行するように設計されたもの等の任意の組合せにより、具現化又は遂行されることもできる。汎用プロセッサは、マイクロプロセッサであり得るが、代替的に、プロセッサは、任意の従来のプロセッサ、制御器、マイクロ制御器、若しくは、状態マシンであり得る。プロセッサは、また、コンピューティングデバイスの組合せ、例えば、ＤＳＰとマイクロプロセッサ、複数のマイクロプロセッサ、ＤＳＰコアと関連した一つ以上のマイクロプロセッサ、若しくは、任意の他の構成の組合せにより具現化されることもできる。

ファームウェア及び／又はソフトウェアの具現化において、技法は、ＲＡＭ（random access memory）、ＲＯＭ（read-only memory）、ＮＶＲＡＭ（non-volatile random access memory）、ＰＲＯＭ（programmable read-only memory）、ＥＰＲＯＭ（erasable programmable read-only memory）、ＥＥＰＲＯＭ（electrically erasable PROM）、フラッシュメモリ、ＣＤ（compact disc）、磁気又は光学データストレージデバイスなどのようなコンピュータ読み取り可能な媒体上に保存された命令で具現化できる。命令は、一つ以上のプロセッサにより実行可能であり、プロセッサが、本開示に説明された機能の特定態様を遂行することが可能である。

前述した実施例は、一つ以上の独立型コンピュータシステムで現在開示された主題の態様を活用するものとして記述しているが、本開示は、これに限定されず、ネットワークや分散コンピューティング環境のような任意のコンピューティング環境によって具現化できる。さらには、本開示における主題の態様は、複数のプロセッシングチップや装置で具現化することもでき、ストレージは、複数の装置にわたって類似に影響を受けることもできる。このような装置は、ＰＣ、ネットワークサーバ及び携帯用装置を含むこともできる。

本明細書では、本開示が一部の実施例によって説明されてきたが、本開示の発明が属する技術分野における通常の当業者が理解し得る本開示から逸脱しない範囲内で、多様な変形や変更が可能である。また、そのような変形や変更は、本明細書に添付された特許請求の範囲内に属するものと理解されるべきである。

Claims

少なくとも一つのコンピューティング装置により遂行される、音声録音後の情報に基づいて生成された音声記録を提供する方法において、
音声録音後に音声データと関連した情報を受信するステップと、
前記音声データに対する音声－テキスト変換要請を受信するステップと、
前記音声－テキスト変換要請に応じて、前記音声データに含まれた少なくとも一部の音声及び前記音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録を出力するステップと、を含む、音声記録を提供する方法。
前記音声録音後に受信された音声データと関連した情報は、前記音声録音後に作成された前記音声データに関するメモを含む、請求項１に記載の音声記録を提供する方法。
前記音声録音後に作成された前記音声データに関するメモは、前記音声データ内の特定の区間に含まれた音声と関連付けられ、
前記音声記録は、前記特定の区間と関連して作成されたメモを利用した、前記特定の区間に含まれた音声に対する音声－テキスト変換により生成されたテキスト情報を含む、請求項２に記載の音声記録を提供する方法。
前記音声データと関連した情報は、前記音声データに含まれた音声と関連した一つ以上の参加者に関する情報を含む、請求項１に記載の音声記録を提供する方法。
前記音声データと関連した情報は、前記音声データに関する題目を含む、請求項１に記載の音声記録を提供する方法。
前記音声記録は、前記少なくとも一部の音声に関する情報及び前記音声データと関連した情報を音声－テキスト転写モデルに入力することにより出力されるテキスト情報を含み、
前記音声－テキスト転写モデルは、参照音声及び前記参照音声と関連した参照情報を入力することで、前記参照音声に対応するテキストを出力するように学習された、請求項１に記載の音声記録を提供する方法。
前記音声データと関連した情報は、前記音声データと関連した情報から抽出された一つ以上のキーワードを含み、
前記参照音声と関連した参照情報は、前記参照音声と関連した一つ以上の参照キーワードを含む、請求項６に記載の音声記録を提供する方法。
前記音声－テキスト転写モデルに入力された一つ以上のキーワードに音声認識加重値が適用されることで、前記一つ以上のキーワードが、前記一つ以上のキーワードと異なるキーワードよりも高い優先順位として認識される、請求項７に記載の音声記録を提供する方法。
前記音声データと関連した情報を受信する前に、前記音声データに含まれた少なくとも一部の音声に対する音声－テキスト変換により生成された第１の音声記録を出力するステップをさらに含み、
前記音声データに対する音声－テキスト変換要請を受信するステップは、前記音声データに対する音声－テキスト再変換要請を受信するステップを含み、
前記出力するステップは、前記音声－テキスト再変換要請に応じて、前記音声データに含まれた少なくとも一部の音声及び前記音声録音後に受信された音声データと関連した情報に基づいて生成された第２の音声記録を前記音声記録として出力するステップを含む、請求項１に記載の音声記録を提供する方法。
前記音声データと関連した情報は、前記第１の音声記録に含まれたテキストのうちで抽出された一つ以上のキーワードを含む、請求項９に記載の音声記録を提供する方法。
前記音声データと関連した情報は、前記第１の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正情報を含み、
前記修正情報により、前記第１の音声記録に含まれたテキストのうちで修正されたテキストに音声－テキスト転写モデルでの音声認識加重値が適用される、請求項９に記載の音声記録を提供する方法。
請求項１に記載の方法をコンピュータで実行するための命令語を記録したコンピュータ読み取り可能な非一時的記録媒体。
情報処理システムであって、
通信モジュールと、
メモリと、
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサと、を含み、
前記少なくとも一つのプログラムは、
音声録音後に音声データと関連した情報を受信し、
前記音声データに対する音声－テキスト変換要請を受信し、
前記音声－テキスト変換要請に応じて、前記音声データに含まれた少なくとも一部の音声及び前記音声録音後に受信された音声データと関連した情報に基づいて音声記録を生成するための命令語を含む、情報処理システム。
前記音声録音後に受信された音声データと関連した情報は、前記音声録音後に作成された前記音声データに関するメモを含む、請求項１３に記載の情報処理システム。
前記音声録音後に作成された前記音声データに関するメモは、前記音声データ内の特定の区間に含まれた音声と関連付けられ、
前記少なくとも一つのプログラムは、
前記音声録音後に作成された前記音声データに関するメモを利用して、前記特定の区間に含まれた音声に対する音声－テキスト変換を行うことで、前記特定の区間に含まれた音声に対応するテキスト情報を含む音声記録を生成するための命令語をさらに含む、請求項１４に記載の情報処理システム。
前記音声データと関連した情報は、前記音声データに含まれた音声と関連した一つ以上の参加者に関する情報又は前記音声データに関する題目の少なくとも一つを含む、請求項１３に記載の情報処理システム。
前記少なくとも一つのプログラムは、
前記少なくとも一部の音声に関する情報及び前記音声データと関連した情報を音声－テキスト転写モデルに入力することで、前記少なくとも一部の音声に関する情報に対応するテキスト情報を含む音声記録を生成するための命令語をさらに含み、
前記音声－テキスト転写モデルは、参照音声及び前記参照音声と関連した参照情報を入力することで、前記参照音声に対応するテキストを出力するように学習された、請求項１３に記載の情報処理システム。
前記音声データと関連した情報は、前記音声データと関連した情報から抽出された一つ以上のキーワードを含み、
前記参照音声と関連した参照情報は、前記参照音声と関連した一つ以上の参照キーワードを含む、請求項１７に記載の情報処理システム。
前記少なくとも一つのプログラムは、
前記音声－テキスト転写モデルに入力された一つ以上のキーワードに音声認識加重値を適用し、
前記一つ以上のキーワードを、前記一つ以上のキーワードと異なるキーワードよりも高い優先順位として認識するための命令語をさらに含む、請求項１８に記載の情報処理システム。
前記少なくとも一つのプログラムは、
前記音声データと関連した情報を受信する前に、前記音声データに含まれた少なくとも一部の音声に対する音声－テキスト変換により第１の音声記録を生成し、
前記音声データに対する音声－テキスト再変換要請を受信し、
前記音声－テキスト再変換要請に応じて、前記音声データに含まれた少なくとも一部の音声及び前記音声録音後に受信された音声データと関連した情報に基づいて第２の音声記録を生成するための命令語をさらに含む、請求項１３に記載の情報処理システム。