JP2024514260A - 音声録音後の情報に基づいて生成された音声記録を提供する方法及びシステム - Google Patents

音声録音後の情報に基づいて生成された音声記録を提供する方法及びシステム Download PDF

Info

Publication number
JP2024514260A
JP2024514260A JP2023561860A JP2023561860A JP2024514260A JP 2024514260 A JP2024514260 A JP 2024514260A JP 2023561860 A JP2023561860 A JP 2023561860A JP 2023561860 A JP2023561860 A JP 2023561860A JP 2024514260 A JP2024514260 A JP 2024514260A
Authority
JP
Japan
Prior art keywords
audio
recording
text
information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023561860A
Other languages
English (en)
Inventor
イ,スミ
シン,ジウン
チョン,イェリム
ファン,ギルファン
チェ,ジョンピル
チョン,ユジン
カン,ミョンフン
イ,ジンミョン
キム,トクス
チェ,ジョンミン
キム,ヒョンジン
ソン,ヨンス
ソン,デグン
イム,デヒョン
ペク,ソルギ
イ,ドンヨル
アン,ギベク
イ,ジェホン
チェ,ジンヒョン
イ,チャンギュ
チャン,ジョンフン
イ,ボンジン
ホ,ヒス
ジョン,ナムギュ
クォン,ヨンギ
キム,ゴンミン
チャン,ドンハン
イ,ウンソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Line Works
Naver Corp
Original Assignee
Line Works
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Line Works, Naver Corp filed Critical Line Works
Publication of JP2024514260A publication Critical patent/JP2024514260A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】少なくとも一つのコンピューティング装置により遂行される、音声録音後の情報に基づいて生成された音声記録を提供する方法を提供する。【解決手段】音声記録を提供する方法は、音声録音後に音声データと関連した情報を受信するステップと、音声データに対する音声-テキスト変換要請を受信するステップと、音声-テキスト変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録を出力するステップと、を含む。【選択図】図1

Description

本開示は、音声録音後の情報に基づいて生成された音声記録を提供する方法及びシステムに関し、具体的には、音声録音後に音声データと関連した情報を受信し、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録を提供する方法及びシステムに関する。
最近、スマートフォンやタブレットPCなどのようなモバイル電子機器の発達及び普及により、ユーザは、日常の中でモバイル電子機器を介して手軽く音声対話、テキスト、イメージなどの記録を生成/保存することができる。例えば、ユーザは、ノートアプリケーションや音声録音アプリケーションなどを使用して、会議、ミーティング、授業、インタビューなどを録音及び/又は録画することができる。また、ユーザは、モバイル電子機器を介して録音及び/又は録画しながら、当該録音及び/又は録画している内容に関してテキストを作成することで、当該内容に関するメモを入力できる。
また、音声-テキスト変換技術(すなわち、音声認識技術)の発展により、録音及び/又は録画により生成された音声録音に含まれた内容を、テキストに変換してユーザに提供できる。このとき、ユーザは、音声録音を直接的に聴取しなくても、変換されたテキストにより当該音声録音の内容を認知できる。しかしながら、音声録音の情報のみを利用して音声-テキスト変換を遂行する場合、音声認識の正確度を低下させるおそれがある。すなわち、音声録音に含まれた音声が不正確に変換されたテキストを、ユーザに提供するおそれがある。
本開示は、前記のような問題を解決するための音声記録を提供する方法、記録媒体に保存されたコンピュータプログラム及び装置(システム)を提供する。
本開示は、方法、装置(システム)又は読み取り可能な保存媒体に保存されたコンピュータプログラムを含む多様な方式により具現化できる。
本開示の一実施例によれば、少なくとも一つのコンピューティング装置により遂行される、音声録音後の情報に基づいて生成された音声記録を提供する方法は、音声録音後に音声データと関連した情報を受信するステップと、音声データに対する音声-テキスト変換要請を受信するステップと、音声-テキスト変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録を出力するステップと、を含む。
本開示の一実施例に係る音声記録を提供する方法をコンピュータで実行するための命令語を記録したコンピュータ読み取り可能な非一時的記録媒体が提供される。
本開示の一実施例に係る情報処理システムは、通信モジュールと、メモリと、メモリと連結され、メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサと、を含み、少なくとも一つのプログラムは、音声録音後に音声データと関連した情報を受信し、音声データに対する音声-テキスト変換要請を受信し、音声-テキスト変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて音声記録を生成するための命令語を含む。
本開示の一部の実施例において、ユーザは、音声録音に含まれた音声データの内容に対応する音声記録の提供を受けることができ、これにより、音声録音の内容を聴覚的かつ視覚的に認知できる。また、音声録音又は音声認識の後に、ユーザが入力した音声データと関連した情報に基づいて音声録音を変換することで、音声データがより正確に変換されたテキストを提供できる。
本開示の一部の実施例において、ユーザが、録音中にモバイルやPCを介したメモの作成が困難な場合、録音が終了した後に当該録音と関連したメモを作成すれば、作成されたメモに含まれたキーワードを抽出して録音ファイルの音声を再認識することで、音声の認識率を向上させることができる。
本開示の効果は、これに制限されず、言及されない他の効果等は、請求範囲の記載から本開示が属する技術分野における通常の知識を有した者(以下、「当業者」という)に明確に理解されるべきである。
本開示の実施例等は、以下の添付図面に基づいて説明される。ここで、類似の参照符号は類似の要素を示すが、これに限定されるものではない。
本開示の一実施例に係る音声録音後に作成された音声データと関連した情報に基づいて生成された音声記録を提供する例を示す図である。 本開示の一実施例に係る音声記録提供サービスを提供するために、情報処理システムが複数のユーザ端末と通信可能であるように連結された構成を示す概要図である。 本開示の一実施例に係るユーザ端末及び情報処理システムの内部構成を示すブロック図である。 本開示の一実施例に係る音声記録を提供する方法を示すフローチャートである。 本開示の一実施例に係る音声データに対する第1の音声記録が出力された後、音声データに関するメモが作成される例を示す図である。 本開示の一実施例に係る音声データに含まれた少なくとも一部の音声に対する再変換結果として、第2の音声記録を出力する例を示す図である。 本開示の一実施例に係る第1の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正情報によって生成された第2の音声記録を出力する例を示す図である。 本開示の一実施例に係る音声録音後に作成された音声データに関するメモに基づいて生成された音声記録を出力する例を示す図である。 本開示の一実施例に係る音声録音後に受信された一つ以上の参加者の情報及び/又は音声データに関する題目に基づいて生成された音声記録を出力する例を示す図である。 本開示の一実施例に係る音声データの再変換及び/又は音声記録の編集過程を示すフローチャートである。 本開示の一実施例に係る人工神経網モデルの例を示す図である。
以下、本開示の実施のための具体的な内容を添付図面に基づいて詳細に説明する。ただし、以下の説明では、本開示の要旨を不要に不明瞭にするおそれがある場合、公知の機能や構成に関する具体的な説明は省略する。
添付図面において、同一又は対応する構成要素には同一の参照符号が付与される。また、以下の実施例の説明において、同一又は対応する構成要素について重複する記述は省略され得る。しかしながら、構成要素に関する記述が省略されても、そのような構成要素が、ある実施例に含まれないものと意図してはならない。
開示の実施例の利点及び特徴、そしてそれらを達成する方法は、添付図面に基づいて後述する実施例を参照すれば明確になる。しかしながら、本開示は、以下で開示される実施例に限定されず、互いに異なる多様な形態で具現化され得る。ただし、本実施例は、本開示が完全になるようにし、本開示が当業者に発明のカテゴリを正確に認識させるために提供されるだけである。
本明細書で使用される用語について簡略に説明し、開示の実施例について具体的に説明する。本明細書で使用される用語は、本開示での機能を考慮しつつ、可能な限り現在広く使用される一般的な用語を選択したが、これは関連分野に従事する技術者の意図又は判例、新技術の出現などにより変化し得る。また、特定の場合は出願人が任意で選定した用語もあり得るが、これらの意味は当該発明の説明の部分において詳細に記載する。よって、本開示で使用される用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されるべきである。
本明細書では、文脈上において明確に特定しない限り、単数の表現は複数の表現を含み、複数の表現は単数の表現を含むことができる。明細書の全般に渡り、ある部分がある構成要素を「含む」とする際、これは特に反対の記載がない限り、他の構成要素を排除するものではなく、他の構成要素をさらに含むこともできることを意味する。
また、明細書で使用される「モジュール」又は「部」という用語は、ソフトウェアやハードウェア構成要素を意味し、「モジュール」又は「部」はある役割を遂行する。しかしながら、「モジュール」又は「部」はソフトウェアやハードウェアに限定される意味ではない。「モジュール」又は「部」は、アドレッシング可能な保存媒体にあるように構成してもよく、一つ又はそれ以上のプロセッサを再生させるように構成してもよい。したがって、一例として、「モジュール」又は「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素、タスク構成要素のような構成要素、並びに、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ又は変数のうちで少なくとも一つを含むことができる。構成要素と「モジュール」又は「部」は、内部で提供される機能はさらに小さい数の構成要素及び「モジュール」又は「部」で結合されたり、追加的な構成要素と「モジュール」又は「部」にさらに分離されたりできる。
本開示の一実施例によれば、「モジュール」又は「部」はプロセッサ及びメモリで具現化され得る。「プロセッサ」は汎用プロセッサ、中央処理装置(CPU)、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、制御器、マイクロ制御器、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境では、「プロセッサ」は特定用途向け半導体(ASIC)、プログラム可能なロジックデバイス(PLD)、フィールドプログラム可能なゲートアレイ(FPGA)等を指すこともできる。「プロセッサ」は、例えば、DSPとマイクロプロセッサの組合せ、複数のマイクロプロセッサの組合せ、DSPコアと結合した一つ以上のマイクロプロセッサの組合せ、若しくは、任意の他のそのような構成等の組合せのような処理デバイスの組合せを指すこともできる。また、「メモリ」は電子情報を保存可能な任意の電子コンポーネントを含むように広く解釈されるべきである。「メモリ」は、RAM(Random Access Memory)、ROM(Read Only Memory)、NVRAM(Non-Volatile Random Access Memory)、PROM(Programmable Read-Only Memory)、EPROM(Erasable Programmable Read-Only Memory)、EEPROM(Electrically Erasable Programmable Reda-Only Memory)、フラッシュメモリ、磁気又は光学データ保存装置、レジスタなどのようなプロセッサ-読み取り可能な媒体の多様な類型を指すこともできる。プロセッサがメモリから情報を読み取るか/メモリに読み取った情報を記録できる場合、メモリはプロセッサと電子通信状態にあると言われる。プロセッサに集積されたメモリはプロセッサと電子通信状態にある。
本開示において、「音声データ」は、音声録音により生成/保存されたデータを含むことができる。ここで、音声録音は音声データを指すことができ、音声データは音声録音を指すことができる。一実施例において、音声データは、一つ以上の音声を含むことができる。ここで、一つ以上の音声は、音声データの複数の区間の少なくとも一つの区間に対応するデータを称することができる。代替的又は付加的に、一つ以上の音声は、音声データに含まれた話者の各々の音声、音声データ、発話及び/又は発話データを指すことができる。本開示において、音声データ及び/又は音声に関する情報は、音声それ自体及び/又は音声を示すデータ(例えば、ベクトルデータ)を含むことができる。
本開示において、「音声記録」は、音声録音に含まれた発話内容がテキストに変換されることにより生成された記録を指すことができる。ここで、第1の音声記録は、音声録音後に受信された音声データと関連した情報を反映しなくて生成された音声記録を指すことができ、第2の音声記録は、音声録音後に受信された音声データと関連した情報を反映して生成された音声記録を指すことができるが、これに限定されるものではない。
図1は、本開示の一実施例に係る音声録音後に作成された音声データと関連した情報に基づいて生成された音声記録122を提供する例を示す図である。図1に示す画面は、ユーザがユーザ端末(例えば、スマートフォン、タブレットPC、デスクトップなど)を介して、音声録音アプリケーション、メモアプリケーション及び/又はノートアプリケーションなどの記録アプリケーションを実行し、音声データに関する音声記録122の提供を受ける例を示す。一実施例において、ユーザは、こうした記録アプリケーションにより、音声録音に含まれた音声データに対応するテキストの提供を受けることができる。
ユーザ端末(例えば、ユーザ端末の少なくとも一つのプロセッサなど)は、音声記録を提供するために、音声録音後に音声データと関連した情報を受信できる。例えば、ユーザ端末は、音声録音後に入力装置(例えば、キーボード、マウス、マイクなど)を介して、ユーザから入力される音声データと関連した情報を受信できる。付加的又は代替的に、ユーザ端末は、音声録音後に保存装置に保存された音声データと関連した情報を保存装置から受信できる。ここで、音声データと関連した情報は、音声データに含まれたり、音声データを示したり、特徴化したりできる任意の情報を指すことができるが、例えば、音声データに関するメモ112、114、音声データに関する題目116、音声データに含まれた音声と関連した一つ以上の参加者に関する情報118などを含むことができる。付加的又は代替的に、音声データと関連した情報は、音声データと関連した情報から抽出された一つ以上のキーワードを含むことができる。付加的又は代替的に、音声データと関連した情報は、既存の音声記録に含まれたテキストのうちで抽出された一つ以上のキーワードを含むことができる。
ユーザ端末は、音声データに対する音声-テキスト変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録122を出力できる。例えば、ユーザ端末は、音声録音に対する変換要請(又は、再変換要請)を示すアイコン120を選択するユーザ入力を受信し、これに応じて、音声記録122に含まれた少なくとも一つのテキストをディスプレイ上に表示できる。ここで、音声記録122は、情報処理システムの少なくとも一つのプロセッサ及び/又はユーザ端末の少なくとも一つのプロセッサにより生成できる。
一実施例において、音声記録122は、少なくとも一部の音声に関する情報及び音声データと関連した情報を、音声-テキスト転写モデル(speech-to-text transcription)に入力することにより出力されるテキスト情報を含むことができる。ここで、音声-テキスト転写モデルは、参照音声及び参照音声と関連した参照情報を入力することで、参照音声に対応するテキストを出力するように学習されたモデルを含むことができる。例えば、参照音声と関連した参照情報は、参照音声と関連した一つ以上の参照キーワードを含むことができる。すなわち、音声-テキスト転写モデルは、参照音声及び参照音声と関連した一つ以上の参照キーワードを入力することで、参照音声に対応するテキストを出力するように学習されたモデルを含むことができる。
一実施例において、音声-テキスト転写モデルに入力された一つ以上のキーワードに音声認識加重値を適用することで、一つ以上のキーワードが、一つ以上のキーワードと異なるキーワードよりも高い優先順位として認識される。例えば、音声-テキスト転写モデルに入力されたキーワードの「デモ」に音声認識加重値を適用することで、キーワードの「デモ」が、キーワードの「ネモ」よりも高い優先順位として認識される。よって、音声-テキスト転写モデルは、入力される音声データに含まれた少なくとも一部の音声を、「ネモ」ではなく「デモ」として認識して、テキストに変換し、出力することができ、ユーザ端末は「ネモ」ではなく「デモ」を含む音声記録を出力できる。
図に示すように、ユーザ端末は、音声データと関連した情報をディスプレイ上に表示できる。例えば、音声データと関連した情報は、音声データの題目(「デモサイト会議」)116、音声データに含まれた音声と関連した一つ以上の参加者の情報(「user1、user2、user3」)118、音声録音中に作成されたメモ112、及び音声録音後に作成されたメモ114を含むことができる。付加的又は代替的に、音声データと関連した情報は、音声録音後に受信された情報が反映されない音声記録(例えば、第1の音声記録)を含むことができる。こうした音声録音後に受信された情報が反映されない音声記録もディスプレイ上に表示できる。その後、音声録音に対する変換要請(又は、再変換要請)を示す「再変換」アイコン120に対するユーザのタッチ入力に応じて、ユーザ端末は、音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録(例えば、第2の音声記録)122をディスプレイ上に表示できる。また、ユーザ端末は、「音声記録の再変換が完了しました。」を含むポップアップメッセージ124を出力できる。
以上で説明した実施例等によれば、ユーザは、音声録音に含まれた音声データの内容に対応する音声記録の提供を受けることができ、これにより、音声録音の内容を聴覚的かつ視覚的に認知できる。また、音声録音又は音声認識の後に、ユーザが入力した音声データと関連した情報に基づいて音声録音を変換することで、音声データがより正確に変換されたテキストを提供できる。
図2は、本開示の一実施例に係る音声記録提供サービスを提供するために、情報処理システム230が複数のユーザ端末210_1、210_2、210_3と通信可能であるように連結された構成を示す概要図である。情報処理システム230は、音声記録提供サービスを提供できるシステム、音声録音、メモ、ノートなどのような記録サービスを提供できるシステム、及び/又は音声-テキスト変換サービスを提供できるシステムを含むことができる。一実施例において、情報処理システム230は、音声記録提供サービス、記録サービス及び/又は音声-テキスト変換サービスと関連したコンピュータ実行可能なプログラム(例えば、ダウンロード可能なアプリケーション)や、データを保存、提供及び実行できる一つ以上のサーバ装置及び/又はデータベースや、クラウドコンピューティング(cloud computing)サービス基盤の一つ以上の分散コンピューティング装置及び/又は分散データベースを含むことができる。例えば、情報処理システム230は、音声記録提供サービス、記録サービス及び/又は音声-テキスト変換サービスのための別のシステム(例えば、サーバ)などを含むことができる。
情報処理システム230により提供される音声記録提供サービス、記録サービス、音声-テキスト変換サービスなどは、複数のユーザ端末210_1、210_2、210_3の各々に設置された音声録音アプリケーション、メモアプリケーション、ノートアプリケーション、音声-テキスト変換アプリケーションなどを介してユーザに提供される。例えば、情報処理システム230は、音声録音アプリケーションなどを介して、ユーザ端末210_1、210_2、210_3から受信される音声-テキスト変換要請に対応する情報を提供したり、対応する処理を遂行したりできる。
複数のユーザ端末210_1、210_2、210_3は、ネットワーク220を介して情報処理システム230と通信できる。ネットワーク220は、複数のユーザ端末210_1、210_2、210_3及び情報処理システム230間の通信が可能であるように構成できる。ネットワーク220は、設置環境に応じて、例えば、イーサネット(Ethernet)(登録商標)、PLC(Power Line Communication)、電話線通信装置及びRS-serial通信などのような有線ネットワーク、移動通信網、WLAN(Wireless LAN)、Wi-Fi(登録商標)、Bluetooth(登録商標)及びZigBee(登録商標)などのような無線ネットワーク又はその組合せからなることができる。通信方式は制限されず、ネットワーク220を含むことができる通信網(例えば、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を活用する通信方式だけでなく、ユーザ端末210_1、210_2、210_3間の近距離無線通信も含まれ得る。
図2では、携帯電話端末210_1、タブレット端末210_2及びPC端末210_3をユーザ端末の例として示したが、これに限定されず、ユーザ端末210_1、210_2、210_3は、有線及び/又は無線通信が可能であり、音声録音アプリケーションなどがインストールされて実行できる任意のコンピューティング装置であり得る。例えば、ユーザ端末は、スマートフォン、携帯電話、ナビゲーション、デスクトップコンピュータ、ラップトップコンピュータ、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットPC、ゲームコンソール(game console)、ウェアラブルデバイス(wearable device)、IoT(internet of things)デバイス、VR(virtual reality)デバイス、AR(augmented reality)デバイスなどを含むことができる。また、図2では、3つのユーザ端末210_1、210_2、210_3がネットワーク220を介して情報処理システム230と通信するものを示したが、これに限定されず、異なる数のユーザ端末がネットワーク220を介して情報処理システム230と通信するように構成されることもできる。
一実施例において、情報処理システム230は、ユーザ端末210_1、210_2、210_3から音声データに対する音声-テキスト変換要請を受信できる。また、情報処理システム230は、ユーザ端末210_1、210_2、210_3から音声データ又は音声データと関連した情報の少なくとも一つを受信できる。音声-テキスト変換要請に応じて、情報処理システム230は、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて音声記録を生成し、生成された音声記録をユーザ端末210_1、210_2、210_3に提供できる。代替的に、ユーザ端末210_1、210_2、210_3が、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて音声記録を生成できる。
図3は、本開示の一実施例に係るユーザ端末210及び情報処理システム230の内部構成を示すブロック図である。ユーザ端末210は、音声録音アプリケーション、メモアプリケーション、ノートアプリケーション、音声-テキスト変換アプリケーションなどが実行可能であり、有/無線通信が可能な任意のコンピューティング装置を指すことができ、例えば、図2の携帯電話端末210_1、タブレット端末210_2及びラップトップコンピュータ端末210_3などを含むことができる。図に示すように、ユーザ端末210は、メモリ312、プロセッサ314、通信モジュール316及び入出力インタフェース318を含むことができる。同様に、情報処理システム230は、メモリ332、プロセッサ334、通信モジュール336及び入出力インタフェース338を含むことができる。図3に示すように、ユーザ端末210及び情報処理システム230は、各々の通信モジュール316、336を用いて、ネットワーク220を介して情報及び/又はデータが通信できるように構成できる。また、入出力装置320は、入出力インタフェース318を介して、ユーザ端末210に情報及び/又はデータを入力したり、ユーザ端末210から生成された情報及び/又はデータを出力したりするように構成できる。
メモリ312、332は、非一時的な任意のコンピュータ読み取り可能な記録媒体を含むことができる。一実施例によれば、メモリ312、332は、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)及びフラッシュメモリ(flash memory)などのような永久的な大容量保存装置(permanent mass storage device)を含むことができる。他の例として、ROM、SSD、フラッシュメモリ及びディスクドライブなどのような永久的な大容量保存装置は、メモリとは区分される別の永久保存装置としてユーザ端末210又は情報処理システム230に含まれることができる。また、メモリ312、332には、運営体制と少なくとも一つのプログラムコード(例えば、音声録音アプリケーション、メモアプリケーション、ノートアプリケーション、音声-テキスト変換アプリケーションなどのためのコード)が保存され得る。
このようなソフトウェア構成要素は、メモリ312、332とは別のコンピュータ読み取り可能な記録媒体からローディングできる。このような別のコンピュータ読み取り可能な記録媒体は、このようなユーザ端末210及び情報処理システム230に直接連結可能な記録媒体を含むことができるが、例えば、フロッピードライブ、ディスク、テープ、DVD/CD-ROMドライブ及びメモリカードなどのようなコンピュータ読み取り可能な記録媒体を含むことができる。他の例として、ソフトウェア構成要素等は、コンピュータ読み取り可能な記録媒体ではなく、通信モジュール316、336を介してメモリ312、332にローディングされることもできる。例えば、少なくとも一つのプログラムは、開発者又はアプリケーションの設置ファイルを配信するファイル配信システムが、ネットワーク220を介して提供するファイルにより設置されるコンピュータプログラム(例えば、音声録音アプリケーション、メモアプリケーション、ノートアプリケーション、音声-テキスト変換アプリケーションなど)に基づいてメモリ312、332にローディングされることができる。
プロセッサ314、334は、基本的な算術、ロジック及び入出力演算を遂行することで、コンピュータプログラムの命令を処理するように構成できる。命令は、メモリ312、332又は通信モジュール316、336により、プロセッサ314、334に提供され得る。例えば、プロセッサ314、334は、メモリ312、332のような記録装置に保存されたプログラムコードによって受信される命令を実行するように構成できる。
通信モジュール316、336は、ネットワーク220を介して、ユーザ端末210と情報処理システム230とが互いに通信するための構成や機能を提供でき、ユーザ端末210及び/又は情報処理システム230が、他のユーザ端末又は他のシステム(例えば、別のクラウドシステムなど)と通信するための構成や機能を提供できる。一例として、ユーザ端末210のプロセッサ314がメモリ312などのような記録装置に保存されたプログラムコードによって生成した要請又はデータ(例えば、音声データに対する音声-テキスト変換要請など)は、通信モジュール316の制御により、ネットワーク220を介して情報処理システム230に伝達され得る。反対に、情報処理システム230のプロセッサ334の制御により提供される制御信号や命令が、通信モジュール336及びネットワーク220を経て、ユーザ端末210の通信モジュール316を介してユーザ端末210に受信され得る。例えば、ユーザ端末210は、情報処理システム230から通信モジュール316を介して、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録などを受信できる。
入出力インタフェース318は、入出力装置320とのインタフェースのための手段であり得る。一例として、入力装置はオーディオセンサー及び/又はイメージセンサーを含むカメラ、キーボード、マイクロホン、マウスなどのような装置を含み、出力装置はディスプレイ、スピーカー、ハプティック(触覚)フィードバックデバイス(haptic feedback device)などのような装置を含むことができる。他の例として、入出力インタフェース318は、タッチスクリーンなどのように入力及び出力を遂行するための構成又は機能が一つで統合された装置とのインタフェースのための手段であり得る。図3では、入出力装置320がユーザ端末210に含まれないように示したが、これに限定されず、ユーザ端末210と一体に構成することもできる。また、情報処理システム230の入出力インタフェース338は、情報処理システム230と連結するか、又は、情報処理システム230が含むことのできる入力や出力のための装置(図示せず)とのインタフェースのための手段であり得る。図3では、入出力インタフェース318、338がプロセッサ314、334と別に構成される要素として示したが、これに限定されず、入出力インタフェース318、338がプロセッサ314、334に含まれるように構成することもできる。
ユーザ端末210及び情報処理システム230は、図3に示す構成要素よりも多くの構成要素を含むことができる。しかしながら、大部分の従来技術的構成要素を明確に示す必要はない。一実施例によれば、ユーザ端末210は、前述した入出力装置320の少なくとも一部を含むように具現化できる。また、ユーザ端末210は、トランシーバー(transceiver)、GPS(Global Positioning system)モジュール、カメラ、各種センサー及びデータベースなどのような他の構成要素をさらに含むことができる。例えば、ユーザ端末210がスマートフォンである場合、一般にスマートフォンが有する構成要素を含むことができ、例えば、加速度センサー、ジャイロセンサー、マイクモジュール、カメラモジュール、各種物理的なボタン、タッチパネルを用いたボタン、入出力ポート及び振動のための振動器などのような多様な構成要素がユーザ端末210にさらに含まれるように具現化できる。
一実施例によれば、ユーザ端末210のプロセッサ314は、音声録音アプリケーション、メモアプリケーション、ノートアプリケーション、音声-テキスト変換アプリケーションなどが動作するように構成できる。このとき、当該アプリケーションと関連したプログラムコードをユーザ端末210のメモリ312にローディングできる。アプリケーションが動作している間に、ユーザ端末210のプロセッサ314は、入出力装置320から提供された情報及び/又はデータを、入出力インタフェース318を介して受信したり、通信モジュール316を介して情報処理システム230から情報及び/又はデータを受信したりでき、受信された情報及び/又はデータを処理して、メモリ312に保存できる。また、このような情報及び/又はデータは、通信モジュール316を介して情報処理システム230に提供され得る。
音声録音アプリケーションなどが動作している間に、プロセッサ314は、入出力インタフェース318と連結されたタッチスクリーン、キーボード、オーディオセンサー及び/又はイメージセンサーを含むカメラ、マイクロホンなどのような入力装置により入力又は選択された音声データ、テキスト、イメージ、映像などを受信でき、受信された音声データ、テキスト、イメージ及び/又は映像などをメモリ312に保存したり、通信モジュール316及びネットワーク220を介して情報処理システム230に提供したりできる。一実施例において、プロセッサ314は、タッチスクリーンやマウスなどのような入力装置320により、音声データと関連した情報、音声データに対する音声-テキスト変換要請などを受信でき、音声データと関連した情報、音声データに対する音声-テキスト変換要請などを、通信モジュール316及びネットワーク220を介して情報処理システム230に提供できる。
ユーザ端末210のプロセッサ314は、情報及び/又はデータを、入出力インタフェース318を介して入出力装置320に転送して出力できる。例えば、ユーザ端末210のプロセッサ314は、ディスプレイ出力可能装置(例えば、タッチスクリーンやディスプレイなど)、音声出力可能装置(例えば、スピーカー)などの出力装置320を介して処理された情報及び/又はデータを出力できる。一実施例において、プロセッサ314は、音声データに対する音声記録をユーザ端末210のディスプレイ上に表示できる。付加的に、プロセッサ314は、音声データに含まれた少なくとも一部の音声を、ユーザ端末210のスピーカーを介して出力できる。
情報処理システム230のプロセッサ334は、複数のユーザ端末210及び/又は複数の外部システムから受信された情報及び/又はデータを管理、処理及び/又は保存するように構成できる。プロセッサ334により処理された情報及び/又はデータは、通信モジュール336及びネットワーク220を介してユーザ端末210に提供できる。一実施例において、情報処理システム230のプロセッサ334は、音声録音後に音声データと関連した情報を受信し、音声データに対する音声-テキスト変換要請を受信し、音声-テキスト変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて音声記録を生成し、生成された音声記録を、通信モジュール336及びネットワーク220を介してユーザ端末210に提供できる。
例えば、プロセッサ334は、音声録音後に作成された音声データに関するメモ(例えば、音声データ内の特定の区間に含まれた音声と関連したメモ)を利用して、特定の区間に含まれた音声に対する音声-テキスト変換を行うことで、特定の区間に含まれた音声に対応するテキスト情報を含む音声記録が生成できる。代替的又は付加的に、プロセッサ334は、少なくとも一部の音声に関する情報及び音声データと関連した情報を音声-テキスト転写モデルに入力することで、少なくとも一部の音声に関する情報に対応するテキスト情報を含む音声記録が生成できる。代替的又は付加的に、プロセッサ334は、音声-テキスト転写モデルに入力された一つ以上のキーワードに音声認識加重値を適用し、一つ以上のキーワードを、一つ以上のキーワードと異なるキーワードよりも高い優先順位として認識できる。代替的又は付加的に、プロセッサ334は、音声データと関連した情報を受信する前に、音声データに含まれた少なくとも一部の音声に対する音声-テキスト変換により第1の音声記録を生成し、音声データに対する音声-テキスト再変換要請を受信し、音声-テキスト再変換要請に応じて、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて第2の音声記録を生成できる。
図4は、本開示の一実施例に係る音声記録を提供する方法400を示すフローチャートである。一実施例において、音声記録を提供する方法400は、プロセッサ(例えば、ユーザ端末及び/又は情報処理システムの少なくとも一つのプロセッサ)により遂行できる。図に示すように、音声記録を提供する方法400は、プロセッサが音声録音後に音声データと関連した情報を受信することにより開始することができる(S410)。ここで、音声録音後に受信された音声データと関連した情報は、音声録音後に作成された音声データに関するメモを含むことができる。付加的又は代替的に、音声データと関連した情報は、音声データに含まれた音声と関連した一つ以上の参加者に関する情報を含むことができる。付加的又は代替的に、音声データと関連した情報は、音声データに関する題目を含むことができる。
プロセッサは、音声データに対する音声-テキスト変換要請を受信できる(S420)。音声-テキスト変換要請に応じて、プロセッサは、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録を出力できる(S430)。
一実施例において、音声記録は、少なくとも一部の音声に関する情報及び音声データと関連した情報を音声-テキスト転写モデルに入力することにより出力されるテキスト情報を含むことができる。ここで、音声-テキスト転写モデルは、参照音声及び参照音声と関連した参照情報を入力することで、参照音声に対応するテキストを出力するように学習できる。このとき、音声データと関連した情報は、音声データと関連した情報から抽出された一つ以上のキーワードを含み、参照音声と関連した参照情報は、参照音声と関連した一つ以上の参照キーワードを含むことができる。
また、音声-テキスト転写モデルに入力された一つ以上のキーワードに音声認識加重値を適用することで、一つ以上のキーワードを、一つ以上のキーワードと異なるキーワードよりも高い優先順位として認識できる。ここで、一つ以上のキーワードは、人工神経網モデル、機械学習モデル、キーワード抽出アルゴリズムなどを利用して、音声データと関連した情報から抽出された有意味なキーワードに該当できる。キーワード抽出アルゴリズムの一例として、現在録音によく使用されたキーワード、他の文書(録音)と比較して現在録音でより多く使用されたキーワード、他の文書(録音)で使用されず、現在録音で初めて使用されたキーワードなどを、有意味なキーワードとして抽出するアルゴリズムなどが用いられるが、これに限定されるものではない。
一実施例において、音声録音後に作成された音声データに関するメモは、音声データ内の特定の区間に含まれた音声と関連付けられる。このとき、音声記録は、特定の区間と関連して作成されたメモを利用した、特定の区間に含まれた音声に対する音声-テキスト変換により生成されたテキスト情報を含むことができる。
一実施例において、プロセッサは、音声データと関連した情報を受信する前に、音声データに含まれた少なくとも一部の音声に対する音声-テキスト変換により生成された第1の音声記録を出力できる。その後、プロセッサは、第1の音声記録を生成した後に音声データと関連した情報を受信し、音声データに対する音声-テキスト再変換要請を受信できる。音声-テキスト再変換要請に応じて、プロセッサは、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された第2の音声記録を音声記録として出力できる。このとき、音声データと関連した情報は、第1の音声記録に含まれたテキストのうちで抽出された一つ以上のキーワードを含むことができる。代替的又は付加的に、音声データと関連した情報は、第1の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正の情報を含むことができる。このとき、音声-テキスト転写モデルでの音声認識加重値を、修正されたテキストに適用できる。
図5は、本開示の一実施例に係る音声データに対する第1の音声記録510が出力された後、音声データに関するメモ516が作成される例を示す図である。ユーザは、ユーザ端末を介して、音声録音前又は音声録音中に、当該音声録音と関連した情報(すなわち、音声データと関連した情報)512、514を入力できる。例えば、ユーザは、音声録音を開始する前に、当該音声録音の題目に関する情報及び/又は当該音声録音に関する参加者の情報514を入力できる。他の例として、ユーザは、音声録音中に当該音声録音と関連したメモ(すなわち、音声データと関連したメモ)512を入力できる。プロセッサ(例えば、ユーザ端末の少なくとも一つのプロセッサ)は、音声録音前又は音声録音中に、このように入力される音声データと関連した情報512、514を受信できる。
プロセッサは、音声データに含まれた少なくとも一部の音声に対する音声-テキスト変換により生成された第1の音声記録510を出力できる。一実施例において、第1の音声記録510は、音声録音前又は音声録音中に受信された音声データと関連した情報512、514に基づいて生成できる。第1の音声記録510を出力するために、音声録音前又は音声録音中に受信された音声データと関連した情報512、514から一つ以上のキーワードを抽出できる。第1の音声記録510は、抽出された一つ以上のキーワード及び音声データを音声-テキスト転写モデルに入力することにより出力されるテキスト情報を含むことができる。例えば、第1の音声記録510は、音声-テキスト転写モデルを介して抽出された一つ以上のキーワードに音声認識加重値が適用され、加重値が適用されたキーワードを高い優先順位として認識することにより生成できる。
音声録音中に作成されたメモ512からキーワードの「企画」が抽出され、抽出されたキーワードの「企画」及び音声データに含まれた少なくとも一部の音声に関する情報が音声-テキスト転写モデルに入力され得る。音声-テキスト転写モデルを介してキーワードの「企画」に音声認識加重値が適用され、加重値が適用されたキーワードの「企画」を、他のキーワードよりも高い優先順位として認識できる。これにより、音声-テキスト転写モデルから少なくとも一部の音声に関する情報に対応する「企画案」を出力でき、「企画案」が含まれた第1の音声記録510を生成できる。
ユーザは、ユーザ端末を介して、音声録音後にも当該音声録音と関連した情報(すなわち、音声データと関連した情報)516を入力できる。例えば、ユーザは、音声録音後に当該音声録音に関するメモ(すなわち、音声データと関連したメモ)516を入力できる。他の例として、ユーザは、音声録音後に当該音声録音に関する参加者の情報を入力(又は、追加入力)できる。図5に示すように、ユーザは、音声録音後に、第1の音声記録510が生成/出力されてから音声データに関するメモ516を作成/入力することができる。したがって、プロセッサは、音声録音後に、第1の音声記録510が生成/出力されてからユーザにより作成/入力された音声データに関するメモ516を受信できる。
図5では、第1の音声記録510が生成及び/又は出力された後、プロセッサが音声データに関するメモ516を受信する例を示しているが、これに限定されるものではない。例えば、音声録音後、第1の音声記録が生成及び/又は出力される前に、プロセッサが音声データに関するメモを受信できる。
図6は、本開示の一実施例に係る音声データに含まれた少なくとも一部の音声に対する再変換結果として、第2の音声記録622を出力する例を示す図である。一実施例において、プロセッサ(例えば、ユーザ端末の少なくとも一つのプロセッサ)は、音声録音後に音声データと関連した情報を受信できる。ここで、音声録音後に受信された音声データと関連した情報は、音声録音後に作成された音声データと関連したメモ616、音声録音後に作成された音声データに関する題目、音声データに含まれた音声と関連した一つ以上の参加者に関する情報、第1の音声記録(又は、第1の音声記録に含まれたテキストのうちで抽出された一つ以上のキーワード)618などを含むことができる。例えば、プロセッサは、第1の音声記録618が生成/出力された後に、音声データと関連した情報を受信できる。
プロセッサは、音声データに対する音声-テキスト再変換要請を受信できる。音声-テキスト再変換要請に応じて、プロセッサは、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報616に基づいて生成された第2の音声記録622を音声記録として出力できる。ここで、音声データと関連した情報は、第1の音声記録618に含まれたテキストのうちで抽出される一つ以上のキーワードを含むことができる。第2の音声記録622を生成するために、第1の音声記録618に含まれたテキストのうちでキーワードの「デモ」が抽出され、音声録音後に受信された音声データと関連した情報616からキーワードの「ウェブ」、「追加」、「デモ」を抽出できる。その後、抽出されたキーワード及び音声データに含まれた少なくとも一部の音声に関する情報を音声-テキスト転写モデルに入力することにより出力されるテキスト情報を含む第2の音声記録622が生成できる。
第1の動作610に示すように、音声-テキスト再変換要請を示す「再変換」アイコン612に対するユーザのタッチ入力などに応じて、プロセッサは、音声記録の再変換の可否に関するポップアップメッセージ(「音声記録を再変換しますか?」)614を出力できる。出力されたポップアップメッセージ614に対するユーザの応答に基づいて、プロセッサは、音声データに含まれた少なくとも一部の音声及び音声録音後に受信された音声データと関連した情報に基づいて生成された第2の音声記録622を出力できる。したがって、第1の動作610では、不正確な音声-テキスト変換により、「今回のネモではウェべで使用する機能を超過しました。」というテキストを含む第1の音声記録618がディスプレイ上に表示されるのに対し、第2の動作620では、正確な音声-テキスト変換により、「今回のデモではウェブで使用する機能を追加しました。」というテキストを含む第2の音声記録622がディスプレイ上に表示される。
図7は、本開示の一実施例に係る第1の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正情報によって生成された第2の音声記録を出力する例を示す図である。一実施例において、音声データと関連した情報は、第1の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正情報を含むことができる。このとき、修正情報により、第1の音声記録に含まれたテキストのうちで修正されたテキストに音声-テキスト転写モデルでの音声認識加重値を適用できる。すなわち、第1の音声記録に含まれたテキストのうちで修正されたテキストがキーワードとして抽出され、少なくとも一部の音声に関する情報及び修正されたテキスト(すなわち、抽出されたキーワード)が音声-テキスト転写モデルに入力されることで、音声認識加重値を、修正されたテキスト(すなわち、抽出されたキーワード)に適用できる。このとき、音声-テキスト変換において、修正されたテキスト(すなわち、抽出されたキーワード)を、他のキーワードよりも高い優先順位として認識できる。
第1の動作710に示すように、プロセッサ(例えば、ユーザ端末の少なくとも一つのプロセッサ)は、音声録音に対する音声-テキスト変換により生成された第1の音声記録を出力できる。第1の音声記録は、「先月論議されたネモサイト共有お願いします。」712及び「今回のネモではウェベで使用する機能を超過しました。」714のように、音声データが誤変換されたテキストを含むことができる。ユーザは、第1の音声記録に含まれたテキストの少なくとも一部を修正できる。例えば、ユーザは、第1の音声記録に含まれたテキストの少なくとも一部を修正するために、「編集」アイコン716を選択(例えば、クリック入力)することができる。これに応じて、プロセッサは、編集モードに転換することにより、第1の音声記録に含まれたテキストの少なくとも一部を修正できるインタフェースをユーザに提供できる。その後、ユーザは、第1の音声記録に含まれた「先月論議されたネモサイト共有お願いします。」712において、「ネモ」を「デモ」に修正できる。
その後、ユーザは、「再変換」アイコン718を選択することにより、音声-テキスト再変換要請を遂行できる。プロセッサは、ユーザの音声-テキスト再変換要請に応じて、第1の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正情報に基づいた音声-テキスト再変換により生成された第2の音声記録を出力できる。例えば、ユーザが第1の動作710において修正したテキストの「デモ」がキーワードとして抽出され、少なくとも一部の音声に関する情報及び修正されたテキストの「デモ」が音声-テキスト転写モデルに入力されることで、音声認識加重値を、修正されたテキストの「デモ」に適用できる。これにより、第1の音声記録において「今回のネモではウェベで使用する機能を超過しました。」714に変換された音声が、第2の音声記録では「今回のデモではウェブで使用する機能を追加しました。」722に変換できる。したがって、第2の動作720に示すように、「今回のデモではウェブで使用する機能を追加しました。」722を含む第2の音声記録を生成でき、プロセッサは生成された第2の音声記録を出力できる。
図8は、本開示の一実施例に係る音声録音後に作成された音声データに関するメモ814に基づいて生成された音声記録を出力する例を示す図である。一実施例において、音声録音後に受信された音声データと関連した情報は、音声録音後に作成された音声データに関するメモ814を含むことができる。ここで、音声録音後に作成された音声データに関するメモ814は、音声データ内の特定の区間に含まれた音声と関連付けられる。このとき、音声記録は、特定の区間に含まれた音声と関連して作成されたメモを利用した、特定の区間に含まれた音声に対する音声-テキスト変換により生成されたテキスト情報を含むことができる。
第1の動作810に示すように、プロセッサ(例えば、ユーザ端末の少なくとも一つのプロセッサ)は、「今回のネモではウェベで使用する機能を超過しました。」812を含む第1の音声記録を出力できる。ユーザは、音声録音後に音声データの特定の区間及び/又は音声データに対する第1の音声記録の特定の区間に関してメモを作成/入力することができる。例えば、ユーザは、音声録音(又は、音声データ)から一部の区間(例えば、開始時点-終了時点間の区間、特定の時点)を選択して、当該区間に関するメモを作成/入力することができる。図に示すように、ユーザは、音声録音において「01:07」時点に対し、音声データに関するメモ814を作成/入力することができる。ここで、「01:07」時点は、第1の音声記録における「01:07」のテキスト区間812と対応できる。このとき、プロセッサは、作成/入力されたメモ814を、対応する区間を示す時間情報(「01:07」)とともに出力できる。その後、ユーザは、「再変換」アイコン816を選択(例えば、クリック入力など)することで、当該音声録音に対する音声-テキスト再変換要請を遂行できる。
プロセッサは、ユーザの音声-テキスト再変換要請に応じて、音声録音後に「01:07」時点に対して作成された音声データに関するメモ814(すなわち、音声録音において「01:07」時点と関連した音声データに関するメモ)に基づいた音声-テキスト再変換により生成された第2の音声記録を出力できる。例えば、ユーザが第1の動作810において「01:07」時点に対して作成した音声データに関するメモ814からキーワードの「デモ」、「ウェブ」、「追加」がキーワードとして抽出され、抽出されたキーワードの「デモ」、「ウェブ」、「追加」及びメモ814と関連した特定の区間の音声が音声-テキスト転写モデルに入力されることで、音声認識加重値を、キーワードの「デモ」、「ウェブ」、「追加」に適用できる。これにより、第1の音声記録において「今回のネモではウェベで使用する機能を超過しました。」812に変換された音声を、第2の音声記録では「今回のデモではウェブで使用する機能を追加しました。」822に変換できる。
これに対し、当該メモ814と関連していない音声データ内の他の区間に対しては、メモ814から抽出されたキーワードの「デモ」、「ウェブ」、「追加」に音声認識加重値が適用されない。例えば、第1の音声記録において「先月論議されたネモサイト共有お願いします。」に変換された音声は、第2の音声記録において「先月論議されたデモサイト共有お願いします。」に再変換されず、そのまま「先月論議されたネモサイト共有お願いします。」824に変換される。すなわち、音声データに関するメモ814が音声データ内の特定の区間に関連して作成された場合、音声データに関するメモ814から抽出されたキーワードが、当該特定の区間のみに対して他のキーワードよりも高い優先順位として認識され、他の区間に対しては既存の優先順位と同様に認識されることを示す。したがって、第2の動作820に示すように、「今回のデモではウェブで使用する機能を追加しました。」822及び「先月論議されたネモサイト共有お願いします。」824を含む第2の音声記録を生成でき、プロセッサは生成された第2の音声記録を出力できる。
図9は、本開示の一実施例に係る音声録音後に受信された一つ以上の参加者の情報918及び/又は音声データに関する題目920に基づいて生成された音声記録を出力する例を示す図である。一実施例において、音声データと関連した情報は、音声データに含まれた音声と関連した一つ以上の参加者に関する情報を含むことができる。付加的又は代替的に、音声データと関連した情報は、音声データに関する題目を含むことができる。このとき、一つ以上の参加者に関する情報918及び/又は音声データに関する題目920から抽出された一つ以上のキーワードに、音声-テキスト転写モデルでの音声認識加重値を適用できる。
第1の動作910に示すように、プロセッサ(例えば、ユーザ端末の少なくとも一つのプロセッサ)は、音声録音に対する音声-テキスト変換により生成された第1の音声記録を出力できる。第1の音声記録は、「先月論議されたネモサイト共有お願いします。」912及び「今回のネモではウェベで使用する機能を超過しました。」914のように、音声データが誤変換されたテキストを含むことができる。ユーザは、音声録音後に一つ以上の参加者に関する情報918及び/又は音声データに関する題目920を作成/入力(例えば、新規入力、追加入力、修正入力など)することができる。例えば、ユーザは、「参加者追加」アイコン916を選択し、追加する参加者「user1」、「user2」、「user3」の情報(例えば、名前、業務、年齢、職級、位置など)を選択(又は入力)することで、当該音声録音に関する参加者の情報を入力できる。
その後、ユーザは、「再変換」アイコン922を選択(例えば、クリック入力など)することで、当該音声録音に対する音声-テキスト再変換要請を遂行できる。プロセッサは、ユーザの音声-テキスト再変換要請に応じて、音声録音後に入力された一つ以上の参加者に関する情報918及び/又は音声データに関する題目920に基づいた音声-テキスト再変換により生成された第2の音声記録を出力できる。
音声-テキスト再変換のために、音声録音後に作成/入力された音声データに関する題目920及び/又は一つ以上の参加者に関する情報918から一つ以上のキーワードを抽出できる。例えば、ユーザが第1の動作910において参加者の情報として入力した「user2」が、デモサイトの作業を遂行する者に該当する場合、このような「user2」の情報に基づいて、「デモ」、「サイト」をキーワードとして抽出できる。付加的に、ユーザが第1の動作910において入力した音声録音の題目である「ウェブ機能追加会議」920からキーワードの「ウェブ」、「機能」、「追加」を抽出できる。
抽出されたキーワードの「デモ」、「サイト」、「ウェブ」、「機能」、「追加」及び少なくとも一部の音声に関する情報が音声-テキスト転写モデルに入力されることで、音声認識加重値をキーワードの「デモ」、「サイト」、「ウェブ」、「機能」、「追加」に適用できる。これにより、第1の音声記録において「先月論議されたネモサイト共有お願いします。」912に変換された音声を、第2の音声記録では「先月論議されたデモサイト共有お願いします。」932に変換できる。また、第1の音声記録において「今回のネモではウェベで使用する機能を超過しました。」914に変換された音声を、第2の音声記録では「今回のデモではウェブで使用する機能を追加しました。」934に変換できる。したがって、第2の動作930に示すように、「先月論議されたデモサイト共有お願いします。」932及び「今回のデモではウェブで使用する機能を追加しました。」934を含む第2の音声記録を生成でき、プロセッサは生成された第2の音声記録を出力できる。
図10は、本開示の一実施例に係る音声データの再変換及び/又は音声記録の編集過程を示すフローチャートである。一実施例において、音声録音に対する音声-テキスト変換が完了して第1の音声記録が生成/出力された場合(S1010)、プロセッサ(例えば、ユーザ端末の少なくとも一つのプロセッサ)は、メモ再変換を案内するメッセージを出力できる(S1020)。例えば、プロセッサは、「メモを作成して再変換してください。」、「録音と関連したメモを作成して再変換すれば、認識率が高くなります。」などのような音声データに関するメモ作成及び/又は音声-テキスト再変換を誘導する案内メッセージを出力できる。
その後、プロセッサが、当該音声録音に対するユーザの再変換要請を受信できる(S1022)。一実施例において、当該音声録音に関して作成されたメモがある場合、プロセッサは、受信されたユーザの再変換要請に応じて、音声-テキスト再変換の可否を確認する再変換の可否に関する第1のポップアップメッセージ(例えば、再変換コンファームポップアップ)を出力できる(S1024)。例えば、プロセッサは、「音声記録を再変換しますか?」を含む第1のポップアップメッセージを出力できる。その後、プロセッサは、第1のポップアップメッセージに対するユーザの入力に基づいて、音声-テキスト再変換により生成された第2の音声記録及び/又は再変換完了を示す第2のポップアップメッセージを出力できる(S1026)。例えば、プロセッサは、第1のポップアップメッセージに対する肯定のユーザ入力(すなわち、再変換要請を示すユーザ入力)に基づいて、音声-テキスト再変換により生成された第2の音声記録及び/又は「音声記録の再変換が完了しました。」を含む第2のポップアップメッセージを出力できる。
これに対し、当該音声録音に関して作成されたメモがない場合、プロセッサは、受信されたユーザの再変換要請に応じて、メモ作成を誘導する第3のポップアップメッセージ(例えば、メモ作成案内ポップアップ)を出力できる(S1028)。例えば、プロセッサは、「メモを作成して再変換してください。」を含む第3のポップアップメッセージを出力できる。
他の実施例において、音声録音に対する音声-テキスト変換が完了して音声記録が生成/出力された場合(S1010)、プロセッサは、音声記録に対する編集要請を受信できる(S1030)。当該音声録音に対する再変換が遂行されない場合(すなわち、生成/出力された音声記録が第1の音声記録に該当する場合)、プロセッサは、受信された編集要請に応じて、再変換前の編集の可否に関する第4のポップアップメッセージを出力できる(S1032)。例えば、プロセッサは、受信された編集要請に応じて、「メモを作成して再変換後に編集してください」を含む第4のポップアップメッセージを出力できる。その後、第4のポップアップメッセージに対するユーザの編集要請を示す応答に基づいて、プロセッサは、音声記録に対して編集モードに転換することで、音声記録を編集できるインタフェースをユーザに提供できる。
これに対し、当該音声録音に対する再変換が既に遂行された場合(すなわち、生成/出力された音声記録が第2の音声記録に該当する場合)、プロセッサは、受信された編集要請に応じて、直ぐに音声記録に対して編集モードに転換することで、ユーザに音声記録を編集できるインタフェースを提供できる(S1034)。ユーザは、音声記録を編集できるインタフェースを介して、音声記録に含まれた複数のテキストのうちで、音声が誤変換された少なくとも一部のテキストを修正/編集することができる。
図11は、本開示の一実施例に係る人工神経網モデル1100の例を示す図である。人工神経網モデル1100は、機械学習モデルの一例として、機械学習(Machine Learning)技術及び認知科学において、生物学的神経網の構造に基づいて具現化した統計学的学習アルゴリズム、又は、そのアルゴリズムを実行する構造であり得る。
一実施例によれば、人工神経網モデル1100は、生物学的神経網のように、シナプスの結合によりネットワークを形成した人工ニューロンであるノード(Node)等がシナプスの加重値を繰り返し調整して、特定の入力に対応した正しい出力及び推論された出力間の誤差が減少するように学習することで、問題解決能力を持つ機械学習モデルを示すことができる。例えば、人工神経網モデル1100は、機械学習やディープラーニングなどの人工知能学習法に使用される任意の確率モデル、ニューラルネットワークモデルなどを含むことができる。
一実施例によれば、人工神経網モデル1100は、音声データに含まれた少なくとも一部の音声に関する情報及び音声データと関連した情報が入力されることで、少なくとも一部の音声に対応するテキストを出力するように構成された人工神経網モデルを含むことができる。ここで、音声データと関連した情報は、音声データに関するメモ、音声データに含まれた音声と関連した一つ以上の参加者に関する情報、音声データに関する題目、音声データと関連した情報から抽出された一つ以上のキーワード、第1の音声記録に含まれたテキストのうちで抽出された一つ以上のキーワード、第1の音声記録に含まれたテキストのうちで少なくとも一部のテキストに関する修正情報などを含むことができる。付加的又は代替的に、人工神経網モデル1100は、音声データに含まれた少なくとも一部の音声に関する情報及び一つ以上のキーワードが入力されることで、一つ以上のキーワードが、他のキーワードよりも高い優先順位として認識されるように音声認識加重値を適用することで、少なくとも一部の音声に対応するテキストを出力するように構成された人工神経網モデルを含むことができる。
人工神経網モデル1100は、多層のノード等及びこれら間の連結により構成された多層パーセプトロン(multilayer perceptron、MLP)で具現化される。本実施例に係る人工神経網モデル1100は、MLPを含む多様な人工神経網モデル構造の一つを用いて具現化できる。図11に示すように、人工神経網モデル1100は、外部から入力信号又はデータ1110を受信する入力層1120と、入力データに対応する出力信号又はデータ1150を出力する出力層1140と、入力層1120及び出力層1140間に位置し、入力層1120から信号を受信して特性を抽出して、出力層1140に伝達するn個(ここで、nは正の整数)の隠れ層1130_1乃至1130_nとからなる。ここで、出力層1140は、隠れ層1130_1乃至1130_nから信号を受信して外部に出力する。
人工神経網モデル1100の学習方法には、教師信号(正解)の入力によって問題の解決に最適化するように学習する教師あり学習(Supervised Learning)方法と、教師信号を必要としない教師なし学習(Unsupervised Learning)方法とがある。一実施例において、情報処理システムは、音声データに含まれた少なくとも一部の音声(又は、音声に関する情報)に対応するテキスト(又は、テキスト情報)を出力するように、人工神経網モデル1100を教師あり学習及び/又は教師なし学習させることができる。例えば、情報処理システムは、参照音声及び参照音声と関連した参照情報を入力することで、参照音声に対応するテキストを出力するように、人工神経網モデル1100を教師あり学習及び/又は教師なし学習させることができる。
このように学習された人工神経網モデル1100は、情報処理システムのメモリ(図示せず)に保存でき、通信モジュール及び/又はメモリから受信された音声データに含まれた少なくとも一部の音声(又は、音声に関する情報)及び/又は音声データと関連した情報に応じて、音声データに含まれた少なくとも一部の音声(又は、音声に関する情報)に対応するテキスト(又は、テキスト情報)を出力できる。付加的又は代替的に、人工神経網モデル1100は、音声データに含まれた少なくとも一部の音声(又は、音声に関する情報)に対応するテキスト(又は、テキスト情報)を含む音声記録を出力できる。
一実施例によれば、音声-テキスト転写を遂行する機械学習モデル、すなわち、人工神経網モデル1100の入力変数は、音声データに含まれた少なくとも一部の音声(又は、音声に関する情報)であり得る。例えば、人工神経網モデル1100の入力層1120に入力される入力変数は、音声データに含まれた少なくとも一部の音声を一つのベクトルデータ要素として構成した、ベクトル1110になり得る。音声データに含まれた少なくとも一部の音声入力に応じて、人工神経網モデル1100の出力層1140から出力される出力変数は、少なくとも一部の音声(又は、音声に関する情報)に対応するテキスト(又は、テキスト情報)を示したり特徴化したりするベクトル1150になり得る。付加的又は代替的に、人工神経網モデル1100の出力層1140は、少なくとも一部の音声(又は、音声に関する情報)に対応するテキスト(又は、テキスト情報)を含む音声記録を示したり特徴化したりするベクトルを出力するように構成できる。本開示において、人工神経網モデル1100の出力変数は、以上で説明された類型に限定されず、少なくとも一部の音声(又は、音声に関する情報)に対応するテキスト(又は、テキスト情報)及び/又は音声記録を示す任意の情報/データを含むことができる。
さらに、人工神経網モデル1100の出力層1140は、出力された音声-テキスト変換(又は、再変換)結果に対する信頼度及び/又は正確度を示すベクトルを出力するように構成できる。
このように、人工神経網モデル1100の入力層1120及び出力層1140に複数の入力変数と対応する複数の出力変数が各々マッチングされ、入力層1120、隠れ層1130_1乃至1130_n及び出力層1140に含まれたノード等間のシナプス値が調整されることで、特定の入力に対応した正しい出力が抽出されるように学習できる。このような学習過程により、人工神経網モデル1100の入力変数の隠れ特性を把握でき、入力変数に基づいて計算された出力変数及び目標出力間の誤差が低減するように、人工神経網モデル1100のノード等間のシナプス値(又は加重値)を調整できる。情報処理システム及び/又はユーザ端末は少なくとも一部の音声に関する情報及び音声データと関連した情報を、学習された人工神経網モデル1100に入力することで、出力されるテキスト情報を利用して、音声データに対する音声記録を生成及び/又は出力することができる。
前述した方法は、コンピュータで実行するために、コンピュータ読み取り可能な記録媒体に保存されたコンピュータプログラムとして提供され得る。媒体は、コンピュータで実行可能なプログラムを継続的に保存し、又は、実行又はダウンロードのために一時保存するものであり得る。また、媒体は、単一又は多数のハードウェアが結合された形態の多様な記録手段又は保存手段であり得るが、あるコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散して存在するものであり得る。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスクや磁気テープのような磁気媒体、CD-ROMやDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical medium)、ROM、RAM、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものが挙げられる。また、他の媒体の例としては、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給乃至流通するサイト、サーバなどで管理する記録媒体乃至保存媒体も挙げられる。
本開示の方法、動作、又は技法は、多様な手段により具現化できる。例えば、このような技法は、ハードウェア、ファームウェア、ソフトウェア、若しくは、これらの組合せで具現化できる。本願の開示により説明された多様な例示的な論理的ブロック、モジュール、回路、及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、若しくは、両方の組合せで具現化できることを、当業者であれば理解できるはずである。ハードウェア及びソフトウェアのこのような相互の代替を明確に説明するために、多様な例示的な構成要素、ブロック、モジュール、回路、及びステップが、それらの機能的観点から一般的に前述された。そのような機能が、ハードウェアとして具現化されるか、若しくは、ソフトウェアとして具現化されるかは、特定アプリケーション及び全体システムに付加される設計要求事項によって変化する。当業者は、各々の特定アプリケーションのために多様な方式により説明された機能を具現化することもできるが、そのような具現化は、本開示の範囲から逸脱するものと解釈してはならない。
ハードウェアの具現化において、技法の遂行に利用されるプロセッシングユニットは、一つ以上のASIC、DSP、デジタル信号処理デバイス(digital signal processing devices、DSPD)、プログラム可能な論理デバイス(programmable logic devices、PLD)、フィールドプログラム可能なゲートアレイ(field programmable gate arrays、FPGA)、プロセッサ、制御器、マイクロ制御器、マイクロプロセッサ、電子デバイス、本開示に説明された機能を遂行するように設計された他の電子ユニット、コンピュータ、若しくは、これらの組合せにおいても具現化され得る。
したがって、本開示により説明された多様な例示的な論理ブロック、モジュール、及び回路は、汎用プロセッサ、DSP、ASIC、FPGAや他のプログラム可能な論理デバイス、離散ゲートやトランジスタロジック、離散ハードウェアコンポーネント、若しくは、本願に説明された機能を遂行するように設計されたもの等の任意の組合せにより、具現化又は遂行されることもできる。汎用プロセッサは、マイクロプロセッサであり得るが、代替的に、プロセッサは、任意の従来のプロセッサ、制御器、マイクロ制御器、若しくは、状態マシンであり得る。プロセッサは、また、コンピューティングデバイスの組合せ、例えば、DSPとマイクロプロセッサ、複数のマイクロプロセッサ、DSPコアと関連した一つ以上のマイクロプロセッサ、若しくは、任意の他の構成の組合せにより具現化されることもできる。
ファームウェア及び/又はソフトウェアの具現化において、技法は、RAM(random access memory)、ROM(read-only memory)、NVRAM(non-volatile random access memory)、PROM(programmable read-only memory)、EPROM(erasable programmable read-only memory)、EEPROM(electrically erasable PROM)、フラッシュメモリ、CD(compact disc)、磁気又は光学データストレージデバイスなどのようなコンピュータ読み取り可能な媒体上に保存された命令で具現化できる。命令は、一つ以上のプロセッサにより実行可能であり、プロセッサが、本開示に説明された機能の特定態様を遂行することが可能である。
前述した実施例は、一つ以上の独立型コンピュータシステムで現在開示された主題の態様を活用するものとして記述しているが、本開示は、これに限定されず、ネットワークや分散コンピューティング環境のような任意のコンピューティング環境によって具現化できる。さらには、本開示における主題の態様は、複数のプロセッシングチップや装置で具現化することもでき、ストレージは、複数の装置にわたって類似に影響を受けることもできる。このような装置は、PC、ネットワークサーバ及び携帯用装置を含むこともできる。
本明細書では、本開示が一部の実施例によって説明されてきたが、本開示の発明が属する技術分野における通常の当業者が理解し得る本開示から逸脱しない範囲内で、多様な変形や変更が可能である。また、そのような変形や変更は、本明細書に添付された特許請求の範囲内に属するものと理解されるべきである。

Claims (20)

  1. 少なくとも一つのコンピューティング装置により遂行される、音声録音後の情報に基づいて生成された音声記録を提供する方法において、
    音声録音後に音声データと関連した情報を受信するステップと、
    前記音声データに対する音声-テキスト変換要請を受信するステップと、
    前記音声-テキスト変換要請に応じて、前記音声データに含まれた少なくとも一部の音声及び前記音声録音後に受信された音声データと関連した情報に基づいて生成された音声記録を出力するステップと、を含む、音声記録を提供する方法。
  2. 前記音声録音後に受信された音声データと関連した情報は、前記音声録音後に作成された前記音声データに関するメモを含む、請求項1に記載の音声記録を提供する方法。
  3. 前記音声録音後に作成された前記音声データに関するメモは、前記音声データ内の特定の区間に含まれた音声と関連付けられ、
    前記音声記録は、前記特定の区間と関連して作成されたメモを利用した、前記特定の区間に含まれた音声に対する音声-テキスト変換により生成されたテキスト情報を含む、請求項2に記載の音声記録を提供する方法。
  4. 前記音声データと関連した情報は、前記音声データに含まれた音声と関連した一つ以上の参加者に関する情報を含む、請求項1に記載の音声記録を提供する方法。
  5. 前記音声データと関連した情報は、前記音声データに関する題目を含む、請求項1に記載の音声記録を提供する方法。
  6. 前記音声記録は、前記少なくとも一部の音声に関する情報及び前記音声データと関連した情報を音声-テキスト転写モデルに入力することにより出力されるテキスト情報を含み、
    前記音声-テキスト転写モデルは、参照音声及び前記参照音声と関連した参照情報を入力することで、前記参照音声に対応するテキストを出力するように学習された、請求項1に記載の音声記録を提供する方法。
  7. 前記音声データと関連した情報は、前記音声データと関連した情報から抽出された一つ以上のキーワードを含み、
    前記参照音声と関連した参照情報は、前記参照音声と関連した一つ以上の参照キーワードを含む、請求項6に記載の音声記録を提供する方法。
  8. 前記音声-テキスト転写モデルに入力された一つ以上のキーワードに音声認識加重値が適用されることで、前記一つ以上のキーワードが、前記一つ以上のキーワードと異なるキーワードよりも高い優先順位として認識される、請求項7に記載の音声記録を提供する方法。
  9. 前記音声データと関連した情報を受信する前に、前記音声データに含まれた少なくとも一部の音声に対する音声-テキスト変換により生成された第1の音声記録を出力するステップをさらに含み、
    前記音声データに対する音声-テキスト変換要請を受信するステップは、前記音声データに対する音声-テキスト再変換要請を受信するステップを含み、
    前記出力するステップは、前記音声-テキスト再変換要請に応じて、前記音声データに含まれた少なくとも一部の音声及び前記音声録音後に受信された音声データと関連した情報に基づいて生成された第2の音声記録を前記音声記録として出力するステップを含む、請求項1に記載の音声記録を提供する方法。
  10. 前記音声データと関連した情報は、前記第1の音声記録に含まれたテキストのうちで抽出された一つ以上のキーワードを含む、請求項9に記載の音声記録を提供する方法。
  11. 前記音声データと関連した情報は、前記第1の音声記録に含まれたテキストの少なくとも一部のテキストに関する修正情報を含み、
    前記修正情報により、前記第1の音声記録に含まれたテキストのうちで修正されたテキストに音声-テキスト転写モデルでの音声認識加重値が適用される、請求項9に記載の音声記録を提供する方法。
  12. 請求項1に記載の方法をコンピュータで実行するための命令語を記録したコンピュータ読み取り可能な非一時的記録媒体。
  13. 情報処理システムであって、
    通信モジュールと、
    メモリと、
    前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサと、を含み、
    前記少なくとも一つのプログラムは、
    音声録音後に音声データと関連した情報を受信し、
    前記音声データに対する音声-テキスト変換要請を受信し、
    前記音声-テキスト変換要請に応じて、前記音声データに含まれた少なくとも一部の音声及び前記音声録音後に受信された音声データと関連した情報に基づいて音声記録を生成するための命令語を含む、情報処理システム。
  14. 前記音声録音後に受信された音声データと関連した情報は、前記音声録音後に作成された前記音声データに関するメモを含む、請求項13に記載の情報処理システム。
  15. 前記音声録音後に作成された前記音声データに関するメモは、前記音声データ内の特定の区間に含まれた音声と関連付けられ、
    前記少なくとも一つのプログラムは、
    前記音声録音後に作成された前記音声データに関するメモを利用して、前記特定の区間に含まれた音声に対する音声-テキスト変換を行うことで、前記特定の区間に含まれた音声に対応するテキスト情報を含む音声記録を生成するための命令語をさらに含む、請求項14に記載の情報処理システム。
  16. 前記音声データと関連した情報は、前記音声データに含まれた音声と関連した一つ以上の参加者に関する情報又は前記音声データに関する題目の少なくとも一つを含む、請求項13に記載の情報処理システム。
  17. 前記少なくとも一つのプログラムは、
    前記少なくとも一部の音声に関する情報及び前記音声データと関連した情報を音声-テキスト転写モデルに入力することで、前記少なくとも一部の音声に関する情報に対応するテキスト情報を含む音声記録を生成するための命令語をさらに含み、
    前記音声-テキスト転写モデルは、参照音声及び前記参照音声と関連した参照情報を入力することで、前記参照音声に対応するテキストを出力するように学習された、請求項13に記載の情報処理システム。
  18. 前記音声データと関連した情報は、前記音声データと関連した情報から抽出された一つ以上のキーワードを含み、
    前記参照音声と関連した参照情報は、前記参照音声と関連した一つ以上の参照キーワードを含む、請求項17に記載の情報処理システム。
  19. 前記少なくとも一つのプログラムは、
    前記音声-テキスト転写モデルに入力された一つ以上のキーワードに音声認識加重値を適用し、
    前記一つ以上のキーワードを、前記一つ以上のキーワードと異なるキーワードよりも高い優先順位として認識するための命令語をさらに含む、請求項18に記載の情報処理システム。
  20. 前記少なくとも一つのプログラムは、
    前記音声データと関連した情報を受信する前に、前記音声データに含まれた少なくとも一部の音声に対する音声-テキスト変換により第1の音声記録を生成し、
    前記音声データに対する音声-テキスト再変換要請を受信し、
    前記音声-テキスト再変換要請に応じて、前記音声データに含まれた少なくとも一部の音声及び前記音声録音後に受信された音声データと関連した情報に基づいて第2の音声記録を生成するための命令語をさらに含む、請求項13に記載の情報処理システム。
JP2023561860A 2021-04-07 2022-03-22 音声録音後の情報に基づいて生成された音声記録を提供する方法及びシステム Pending JP2024514260A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2021-0045526 2021-04-07
KR1020210045526A KR20220139189A (ko) 2021-04-07 2021-04-07 음성 녹음 후의 정보에 기초하여 생성된 음성 기록을 제공하는 방법 및 시스템
PCT/KR2022/004012 WO2022215905A1 (ko) 2021-04-07 2022-03-22 음성 녹음 후의 정보에 기초하여 생성된 음성 기록을 제공하는 방법 및 시스템

Publications (1)

Publication Number Publication Date
JP2024514260A true JP2024514260A (ja) 2024-03-29

Family

ID=83546413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023561860A Pending JP2024514260A (ja) 2021-04-07 2022-03-22 音声録音後の情報に基づいて生成された音声記録を提供する方法及びシステム

Country Status (4)

Country Link
JP (1) JP2024514260A (ja)
KR (1) KR20220139189A (ja)
TW (1) TWI835098B (ja)
WO (1) WO2022215905A1 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265131A (ja) * 2006-03-29 2007-10-11 Oki Electric Ind Co Ltd 対話情報抽出装置,対話情報抽出方法およびプログラム
KR101977072B1 (ko) * 2012-05-07 2019-05-10 엘지전자 주식회사 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기
KR102090948B1 (ko) * 2013-05-20 2020-03-19 삼성전자주식회사 대화 기록 장치 및 그 방법
CN107665705B (zh) * 2017-09-20 2020-04-21 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
KR102208954B1 (ko) * 2019-01-11 2021-01-28 (주)액션파워 대화록 서비스를 제공하는 컴퓨팅 장치
CN110322872A (zh) * 2019-06-05 2019-10-11 平安科技(深圳)有限公司 会议语音数据处理方法、装置、计算机设备和存储介质
KR20190113693A (ko) * 2019-09-18 2019-10-08 엘지전자 주식회사 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법

Also Published As

Publication number Publication date
KR20220139189A (ko) 2022-10-14
WO2022215905A1 (ko) 2022-10-13
TW202240571A (zh) 2022-10-16
TWI835098B (zh) 2024-03-11

Similar Documents

Publication Publication Date Title
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
US12002464B2 (en) Systems and methods for recognizing a speech of a speaker
CN105378708B (zh) 环境感知对话策略和响应生成
JP7329585B2 (ja) ペルソナチャットボット制御方法及びシステム
US10956480B2 (en) System and method for generating dialogue graphs
US20120108221A1 (en) Augmenting communication sessions with applications
WO2020238209A1 (zh) 音频处理的方法、系统及相关设备
CN111201567A (zh) 用于与数字媒体内容交互的口语、面部和姿势通信设备和计算体系架构
JP7113047B2 (ja) 人工知能基盤の自動応答方法およびシステム
KR20220158573A (ko) 페르소나 챗봇 제어 방법 및 시스템
WO2019156537A1 (ko) 보안 등과 관련된 서비스를, 사용자간 대화 세션에 대한 모니터링에 기초하고 대화 세션 또는 별도의 세션을 통해, 능동적으로 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
US11470201B2 (en) Systems and methods for providing real time assistance to voice over internet protocol (VOIP) users
US11640823B1 (en) Natural language processing routing
KR20190094087A (ko) 머신러닝 기반의 대화형 ai 에이전트 시스템과 연관된, 사용자 맞춤형 학습 모델을 포함하는 사용자 단말 및 사용자 맞춤형 학습 모델이 기록된 컴퓨터 판독가능 기록 매체
JP2024514260A (ja) 音声録音後の情報に基づいて生成された音声記録を提供する方法及びシステム
KR20230011894A (ko) 오디오 특징 검출을 위한 기술
US20230153061A1 (en) Hierarchical Context Specific Actions from Ambient Speech
KR20220046165A (ko) 앱과 웹의 연동을 통해 음성 파일에 대한 메모를 작성하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
KR20200091099A (ko) 대화 이해 서비스 서버를 통하여, 블록체인 네트워크 상의 트랜잭션을 생성하는 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치
US12020683B2 (en) Real-time name mispronunciation detection
KR102663162B1 (ko) 음성 합성 방법 및 시스템
WO2019156535A1 (ko) 대화 세션 내의 이전의 이력 정보를 이용하여, 사용자간 대화 세션에 대한 모니터링에 기초해서 능동적으로 주문 또는 예약 서비스를 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
KR20220110408A (ko) 멀티미디어 제공 애플리케이션을 통한 다언어 번역 제공 방법
KR20230034246A (ko) 음성을 텍스트로 변환한 음성 기록에서 유사 발음의 단어를 포함하여 검색하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
KR20190103927A (ko) 보안 등과 관련된 서비스를, 사용자간 대화 세션에 대한 모니터링에 기초하고 대화 세션 또는 별도의 세션을 통해, 능동적으로 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231006