JP7166370B2 - 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体 - Google Patents

音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP7166370B2
JP7166370B2 JP2021014195A JP2021014195A JP7166370B2 JP 7166370 B2 JP7166370 B2 JP 7166370B2 JP 2021014195 A JP2021014195 A JP 2021014195A JP 2021014195 A JP2021014195 A JP 2021014195A JP 7166370 B2 JP7166370 B2 JP 7166370B2
Authority
JP
Japan
Prior art keywords
voice
recording
user
custom
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021014195A
Other languages
English (en)
Other versions
JP2022068817A (ja
Inventor
スミ イ
ジウン シン
イェリム チョン
ギルファン ファン
ジョンフン チャン
ナムギュ チョン
デヒョン イム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022068817A publication Critical patent/JP2022068817A/ja
Application granted granted Critical
Publication of JP7166370B2 publication Critical patent/JP7166370B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Description

以下の説明は、音声認識率を向上させる技術に関する。
モバイル音声変換技術の流れとしては、モバイルデバイスで音声を録音し、音声録音が終われば、録音された区間の音声をテキストに変換してディスプレイ上に表示するのが一般的である。
このような音声変換技術の一例として、特許文献1(公開日2014年5月23日)には、音声録音およびテキスト変換を実行する技術が開示されている。
韓国公開特許第10-2014-0062217号公報
対話音声の録音中に該当の対話の脈絡と関連してユーザが入力した単語を利用することで、音声認識率を向上させる方法とシステムを提供する。
コンピュータ装置が実行する音声記録管理方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記音声記録管理方法は、前記少なくとも1つのプロセッサにより、音声をテキストに変換して音声記録を生成する段階を含み、前記生成する段階は、前記音声と関連してユーザが入力したカスタムキーワードに加重値を適用した音声認識を実行する段階を含む、音声記録管理方法を提供する。
一側面によると、前記実行する段階は、前記カスタムキーワードにブースティング(boosting)を適用して前記音声認識を実行してよい。
他の側面によると、前記音声記録管理方法は、前記少なくとも1つのプロセッサにより、前記音声の録音中に前記ユーザが作成したメモと前記音声記録をマッチングして管理する段階をさらに含み、前記実行する段階は、前記メモから前記カスタムキーワードを抽出する段階を含んでよい。
また他の側面によると、前記実行する段階は、前記音声の話者発声区間ごとに、該当の区間にマッチングされたメモから前記カスタムキーワードを抽出して前記音声認識を実行してよい。
また他の側面によると、前記実行する段階は、前記ユーザが前記音声記録に関する情報として入力した単語から前記カスタムキーワードを抽出する段階を含んでよい。
また他の側面によると、前記実行する段階は、前記ユーザが入力した前記音声記録のタイトルと対話に参加する参加者情報から前記カスタムキーワードを抽出する段階を含んでよい。
また他の側面によると、前記実行する段階は、前記ユーザが頻繁に使用する単語として登録されたキーワードを前記カスタムキーワードとして抽出する段階を含んでよい。
また他の側面によると、前記音声記録管理方法は、前記少なくとも1つのプロセッサにより、前記音声記録に含まれたテキストに対して編集機能を提供する段階をさらに含み、前記実行する段階は、前記編集機能を利用して前記ユーザが編集した単語から前記カスタムキーワードを抽出する段階を含んでよい。
また他の側面によると、前記実行する段階は、前記ユーザが入力した単語の種類または類型に基づく加重値によって前記カスタムキーワードを抽出する段階を含んでよい。
さらに他の側面によると、前記実行する段階は、前記ユーザが入力した単語に対する誤字脱字チェックにより、一部の単語を前記カスタムキーワードから除外させる段階を含んでよい。
前記音声記録管理方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。
コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、音声をテキストに変換して音声記録を生成する音声記録生成部を含み、前記音声記録生成部は、前記音声と関連してユーザが入力したカスタムキーワードに加重値を適用した音声認識を実行することを特徴とする、コンピュータ装置を提供する。
本発明の一実施形態における、ネットワーク環境の例を示した図である。 本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。 本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示した図である。 本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。 本発明の一実施形態における、コンピュータ装置が実行することのできる音声認識方法の例を示したフローチャートである。 本発明の一実施形態における、ユーザが入力した単語を利用した音声認識結果の例を示した図である。 本発明の一実施形態における、ユーザが入力した単語を利用した音声認識結果の例を示した図である。 本発明の一実施形態における、ユーザが入力した単語を利用した音声認識結果の例を示した図である。
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態に係る音声記録管理システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る音声記録管理方法は、音声記録管理システムに含まれる少なくとも1つのコンピュータ装置によって実行されてよい。このとき、コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されるコンピュータプログラムの制御にしたがって本発明の実施形態に係る音声記録管理方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置に結合されて音声記録管理方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境の一例を説明したものに過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、音声記録管理サービス(または、議事録管理サービス)、コンテンツ提供サービス、グループ通話サービス(または、音声会議サービス)、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど)を提供するシステムであってよい。
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、図2に示したコンピュータ装置200によって実現されてよい。
このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク170を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ210に伝達されてよく、ファイルなどは、コンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、マウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータ装置200と1つの装置で構成されてもよい。
また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。
先ず、音声をテキストに変換した結果(以下、「音声記録」と称する)を提供する方法およびシステムの具体的な実施形態について説明する。
多くの人が、会議のような多様な状況でモバイルデバイスによって音声を録音し、録音中の対話音声の脈略と関連する内容は、PCのような他のデバイスを利用してメモとして記録することがある。
このように、従来の技術では、音声録音とメモが互いに異なるデバイスに記録されて保管されていたため、音声とメモを確認するときにはそれぞれ個別に確認するしかなく、これにより、録音された内容の全体の流れを把握しながらメモを確認することに限界があった。
このような問題を解決するために、本実施形態では、音声録音およびテキスト変換を含む音声記録機能とメモ機能を統合された1つの機能として提供し、録音された音声をテキストに変換した音声記録と、録音中に作成されたメモをマッチングしてともに管理する音声記録管理サービスを提供する。
また、本実施形態では、対話音声を録音する途中にユーザが作成したメモから重要キーワードを抽出することで、該当のキーワードの認識率を高める方法とシステムを提供する。
また、本実施形態では、音声記録でユーザが編集した単語、あるいはユーザが日常で頻繁に使用する単語を利用することで、より正確な認識結果を提供する方法とシステムを提供する。
特に、本実施形態は、音声記録管理サービスを提供するための専用アプリとウェブとのリアルタイム連動により、録音を実行するデバイスとメモを作成するデバイスとの間にネットワーク接続状態を維持し、音声録音機能とメモ作成機能をともに提供することを目的とする。
図3は、本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示したブロック図であり、図4は、本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。
本実施形態に係るコンピュータ装置200は、クライアントを対象に、クライアント上にインストールされた専用アプリとクライアント上で接続可能なコンピュータ装置200と関連する専用ウェブサイトによって音声記録管理サービスを提供してよい。コンピュータ装置200には、コンピュータによって実現された音声記録管理システムが構成されてよい。
コンピュータ装置200のプロセッサ220は、図4に係る音声記録管理方法を実行するための構成要素として、図3に示すように、音声記録生成部310、メモマッチング管理部320、および音声記録提供部330を含んでよい。実施形態によって、プロセッサ220の構成要素は、選択的にプロセッサ220に含まれても除外されてもよい。また、実施形態によって、プロセッサ220の構成要素は、プロセッサ220の機能の表現のために分離されても併合されてもよい。
このようなプロセッサ220およびプロセッサ220の構成要素は、図4の音声記録管理方法が含む段階410~430を実行するようにコンピュータ装置200を制御してよい。例えば、プロセッサ220およびプロセッサ220の構成要素は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。
ここで、プロセッサ220の構成要素は、コンピュータ装置200に記録されたプログラムコードが提供する命令にしたがってプロセッサ220によって実行される、互いに異なる機能(different functions)の表現であってよい。例えば、コンピュータ装置200が音声記録を生成するように上述した命令にしたがってコンピュータ装置200を制御するプロセッサ220の機能的表現として、音声記録生成部310が利用されてよい。
プロセッサ220は、コンピュータ装置200の制御と関連する命令がロードされたメモリ210から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明する段階410~430をプロセッサ220が実行するように制御するための命令を含んでよい。
以下で説明する段階410~430は、図4に示した順とは異なる順で実行されることもあるし、段階410~430のうちの一部が省略されたり追加の過程が含まれたりすることもある。
図4を参照すると、段階410で、音声記録生成部310は、クライアントから受信された対話音声をテキストに変換することによって音声記録を生成してよい。クライアント側のデバイスでは、録音機能を実行させて録音した音声ファイルを伝達してもよいし、デバイス上に記録された音声ファイルを伝達してもよい。音声記録生成部310は、周知の音声認識技術を利用して、話者による発声区間に該当する音声データをテキストに変換した結果である音声記録を生成してよい。このとき、音声記録生成部310は、音声記録を生成する過程において話者ごとに発声区間を分割する話者分割技術を適用してよい。音声記録生成部310は、会議、インタビュー、取引、裁判などのように多くの話者が順不同に発声する状況で録音された音声ファイルの場合には、発声内容を話者ごとに分割して自動記録してよい。
段階420で、メモマッチング管理部320は、クライアントが音声録音中に作成するか音声再生中に作成したメモをクライアントから受信し、段階410で生成された音声記録とマッチングして管理してよい。メモマッチング管理部320は、クライアントが録音を実行した時間を基準として、音声記録中および録音実行中に作成されたメモをマッチングしてよい。音声記録は、話者発声区間の基点を示すタイムスタンプを含んでよく、メモマッチング管理部320は、音声記録のタイムスタンプを基準として該当の区間に作成されたメモをともに管理してよい。これと同じように、メモマッチング管理部320は、音声記録が存在する音声ファイルに対し、クライアントが音声を再生する時間を基準として、音声記録中および音声再生中に作成されたメモをマッチングして記録してよい。言い換えれば、メモマッチング管理部320は、特定の時点の発声区間に作成されたメモを該当の時点の音声記録とマッチングして管理してよい。
段階430で、音声記録提供部330は、クライアントから音声記録に対する選択命令が受信される場合、該当の音声記録を音声記録とマッチングされたメモと連係させて提供してよい。音声記録提供部330は、音声録音中に作成されるか音声再生中に作成されたメモを音声記録とともに簡単かつ便利に確認できるように、音声記録とメモをデュアルビュー方式によって並べて表示してよい。デュアルビュー方式とは、音声記録とメモを二列に並べて表示する方式であって、これは、音声をテキストに変換した音声記録と該当の音声の録音時間や再生時間に作成されたメモを並べて表示することで対話記録を簡単に探索できるようにするインタフェースを提供するものである。音声記録提供部330は、音声記録とメモをデュアル表示する方式の他にも、クライアントの選択にしたがい、音声記録とメモのうちの1つを単独表示する方式で実現することも可能である。
図5~12は、本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。
図5~12は、クライアント上にインストールされた専用アプリケーションやコンピュータ装置200と関連するウェブ/モバイルサイト上のインタフェース画面であって、音声記録管理画面500の例を示している。
図5~9は、音声記録を生成する過程を説明するための音声記録管理画面500の例を示している。
以下では、音声録音とメモ作成のためのデバイスとして同じデバイスを使用する環境を仮定して説明するが、これに限定されてはならず、ユーザの同一アカウントによってログインしたモバイルアプリとPCウェブを連動し、モバイルアプリでは音声録音を実行し、PCウェブでは録音中の音声と関連するメモを作成する使用環境のような多様な使用環境も適用可能である。
図5を参照すると、音声記録管理画面500は、音声記録管理サービスのホーム画面構成であって、サービス提供のための主要メニューリストが含まれてよく、一例として、音声記録をフォルダ単位で管理するためのフォルダリスト501が含まれてよい。また、音声記録管理画面500には、新たな音声記録を生成するための「新規ノート作成」メニュー502が含まれてよい。
プロセッサ220は、音声記録管理画面500から「新規ノート作成」メニュー502が選択される場合、図6に示すように、音声記録生成画面610を提供してよい。音声記録生成画面610には、音声記録のタイトルを入力するための「タイトル」入力欄611、対話に参加する参加者情報を入力するための「参加者」入力欄612、音声録音のための「録音開始」メニュー613、音声ファイルをアップロードするための「ファイルアップロード」メニュー614などが含まれてよい。言い換えれば、プロセッサ220は、音声記録を生成するために、録音機能とファイルアップロード機能を提供してよい。
プロセッサ220は、音声記録生成画面610から「録音開始」メニュー613が選択される場合、図7に示すように、音声録音画面720を提供してよい。音声録音画面720は、基本的な録音インタフェースであって、録音が実行された時間情報、録音を一時停止するための一時停止ボタン、録音を終了するための終了ボタンなどが含まれてよい。
特に、音声録音画面720には、録音中にメモを作成できるようにするメモインタフェース721と、録音中にブックマークを記録できるようにするブックマークインタフェース722が含まれてよい。このとき、メモインタフェース721には、テキストによる入力はもちろん、写真や動画撮影機能、ファイル添付機能などが含まれてよい。ユーザは、メモインタフェース721を利用することで、録音中に該当の音声と関連する重要な内容や添付の内容などをメモとして作成することができ、メモの他にも、ブックマークインタフェース722を利用することで、重要区間の録音時点にブックマークを記録することができる。録音実行時間を基準として録音中に入力されたメモやブックマークが記録されてよく、例えば、メモ作成が始まった時点の録音実行時間がメモ作成時間に記録されてよく、ブックマークが入力された時点の録音実行時間がブックマーク指定時間として記録されてよい。
音声記録に対するブックマークとしては、ブックマークインタフェース722を利用した手動設定を説明しているが、これに限定されてはならず、自動設定機能による実現も可能である。例えば、事前に定められた主要キーワード(一例として、音声記録のタイトルやタグなど)が発声される区間にブックマークが自動で記録されるようにしてよい。
プロセッサ220は、音声記録生成画面610から「ファイルアップロード」メニュー614が選択される場合、クライアントが音声ファイルを探索できるようにするためのファイル探索画面を提供し、ファイル選択画面から特定のファイルが選択されれば、図8に示すように、選択されたファイルをアップロードするファイルアップロード画面830を提供してよい。ファイルアップロード画面830には、選択されたファイルに関する情報(例えば、ファイル名、ファイルの長さなど)とともに、ファイルアップロードの進行状況を示すプログレスバー831が含まれてよい。
プロセッサ220は、音声録音画面720による音声録音が完了するか、ファイルアップロード画面830によるファイルアップロードが完了すれば、図9に示すように、音声をテキストに変換する音声記録生成過程の進行状況915を音声記録生成画面610に表示してよい。録音の場合は、録音と同時進行で音声ファイルがリアルタイムでアップロードされるか、あるいは録音の完了にともなって録音された音声ファイル全体が一括アップロードされてよい。
プロセッサ220は、音声記録生成過程が完了した音声ファイルに対し、音声記録とメモ(および、ブックマーク)を時間的にマッチングしてともに提供してよい。
図10~12は、音声記録を提供する過程を説明するための音声記録管理画面500の例を示した図である。
図10を参照すると、プロセッサ220は、音声記録管理画面500に提供されたファイルリストから特定の音声記録が選択される場合、該当のタイトルの音声記録に対し、デュアルビュー方式によって音声記録領域1040とメモ領域1050をともに表示してよい。音声記録管理画面500には、音声記録生成過程で入力されたタイトル1041と参加者情報1042が提供されてよく、音声ファイルの再生を制御するためのコントローラ領域1060が含まれてよい。
音声記録領域1040では、各区間の音声を変換したテキストが発声区間ごとに表示されてよい。このとき、音声ファイルでテキストが発声される時点を基準にタイムスタンプが表示されてよい。メモ領域1050には、音声ファイルの録音中に作成されたメモが表示されてよく、各メモには、メモの作成が始まった時点の録音実行時間が該当のメモのタイムスタンプとして表示されてよい。
プロセッサ220は、音声記録領域1040とメモ領域1050を二列に並べて表示してよい。このとき、音声記録領域1040とメモ領域1050は、タイムスタンプを基準にマッチングさせて表示してよい。例えば、話者1が発声した00分02秒時点に作成されたメモは、該当の発声区間のテキストと同一線上に表示してよい。
音声記録領域1040とメモ領域1050をタイムスタンプに基づく同一線上に表示するのではなく、単にそれぞれの時間順にしたがって整列することも可能である。この他にも、音声記録領域1040とメモ領域1050を整列する方式は、デュアルビュー方式の範囲内であれば、いくらでも変更可能である。
コントローラ領域1060は、プログレスバー、再生/一時停止ボタン、早送りボタン、巻き戻しボタン、音量調節ボタンなどが含まれてよく、メモが作成された区間を示すメモインジケータ1061とブックマークが記録された区間を示すブックマークインジケータ1062が、プログレスバー上に表示されてよい。
メモインジケータ1061とブックマークインジケータ1062を一目で区分できるように、インジケータのディスプレイ要素(例えば、色や形状など)を互いに異なるように適用してよい。
プロセッサ220は、ユーザが音声記録領域1040から特定の発声区間のテキストを選択する場合、該当の区間の音声を再生してよい。メモ領域1050から特定のメモを選択する場合も同じように、該当のメモが作成された区間の音声が再生されてよい。
プロセッサ220は、音声記録領域1040とメモ領域1050の相互間の選択領域を同期化してよい。例えば、ユーザが音声記録領域1040から特定の発声区間のテキストを選択する場合、該当の区間に作成されたメモ領域1050内のメモをハイライト表示してよい。
ユーザは、音声記録領域1040とメモ領域1050を同時に確認することができ、コントローラ領域1060内のプログレスバー上のメモインジケータ1061とブックマークインジケータ1062によって簡単かつ便利な探索が可能となるため、対話内容を一目で把握することが可能となる。
図11を参照すると、プロセッサ220は、音声記録領域1040でブックマークが指定された発声区間のテキストを他の区間のテキストと区別して表示してよく、例えば、該当の区間のテキストに対してブックマークアイコン1171を表示してよい。ブックマークアイコン1171を表示する以外にも、ブックマークが指定された発声区間のテキストにハイライトを適用することも可能である。
また、プロセッサ220は、音声記録領域1040でブックマークが指定された発声区間のテキストに対して「編集」メニュー1172を提供し、ブックマーク区間のテキスト編集を誘導してよい。
プロセッサ220は、音声記録領域1040でブックマークが指定された発声区間のテキストに対して「編集」メニュー1172が選択される場合、図12に示すように、該当の区間のテキストを編集できるようにする編集画面1270を提供してよい。音声記録領域1040でブックマークが指定された発声区間のテキストは、編集画面1270で編集されたテキストに更新されてよい。
プロセッサ220は、音声記録領域1040に含まれたブックマーク区間の他にも、発声区間のテキストそれぞれに対して編集機能を提供してよく、メモ領域1050に含まれたメモを編集できるようにする機能を提供してもよい。
また、プロセッサ220は、音声記録領域1040とメモ領域1050に対し、話者やキーワードなどを利用したグルーピングによるフィルタリング機能を提供してよい。
プロセッサ220は、音声記録領域1040から特定の話者が選択される場合、該当の話者の発声区間に対する音声記録とメモのうちの少なくとも1つをグルーピングして表示してよい。言い換えれば、特定の話者が発声した区間の音声記録と該当の話者の発声区間に対して作成されたメモを1つにまとめて表示してよい。
また、プロセッサ220は、ユーザが入力したキーワードを基準に、該当のキーワードを含む音声記録とメモのうちの少なくとも1つをグルーピングして表示することも可能である。キーワードを利用したメモグルーピングの場合は、該当のキーワードを含むメモ、または該当のキーワードを含む発声区間に作成されたメモをグルーピング対象としてよい。話者やキーワードの他にも、音声記録とメモを分類することのできる多様な基準がフィルタリングに活用されてよい。
プロセッサ220は、音声記録領域1040とメモ領域1050をともに表示するデュアルビュー方式の他にも、ユーザの選択にしたがい、音声記録領域1040とメモ領域1050のうちの1つを選択的に表示するビューモードを提供してよい。
以下では、音声記録のための音声認識率を向上させる方法およびシステムの具体的な実施形態について説明する。
音声認識技術では、固有名詞や専門用語などのように一般的にあまり使用されない単語の場合は、一般的な単語に比べて認識率が低下するという問題がある。
本実施形態では、音声認識の正確度を向上させるために、対話の脈絡と関連してユーザから入力された単語を活用する。
図13は、本発明の一実施形態における、コンピュータ装置が実行することのできる音声認識方法の例を示したフローチャートである。図13の音声認識方法は、音声記録生成部310によって実行されるものであり、図4の音声記録管理方法に含まれる段階410に含まれてよい。
段階1301で、音声記録生成部310は、音声ファイルと関連してユーザが入力した文章から、音声認識のためのカスタムキーワード(custom keyword)を抽出してよい。一例として、音声記録生成部310は、対話音声の録音の途中にユーザがメモ機能を利用して該当の対話の脈絡と関連して作成したメモに基づき、該当のメモから、名詞などのような少なくとも一部の品詞に該当する単語をカスタムキーワードとして抽出してよい。他の例として、音声記録生成部310は、音声記録生成過程でユーザが該当の音声記録に関する情報として入力した単語、例えば、音声記録生成画面610に入力した音声記録のタイトルやタグ、参加者情報から、名詞などのような少なくとも一部の品詞に該当する単語をカスタムキーワードとして抽出してよい。また他の例として、音声記録生成部310は、事前に構築されたカスタム辞書内から、ユーザが入力した音声記録のタイトルと関連し、該当のタイトルと関連するカテゴリの単語をカスタムキーワードとして抽出してよい。また他の例として、音声記録生成部310は、編集機能(例えば、図12を参照しながら説明した編集機能)を利用して音声記録でユーザが編集した内容、言い換えれば、最終的に修正された内容から、名詞などのような少なくとも一部の品詞に該当する単語をカスタムキーワードとして抽出してよい。さらに他の例として、音声記録生成部310は、ユーザが日常で頻繁に使用する単語として登録されたキーワードをカスタムキーワードとして活用してよい。頻繁に使用する単語を登録する過程において、プロセッサ220は、コンピュータ装置200の構成要素として含まれる辞書データベースあるいはコンピュータ装置200と連動可能な辞書データベースを利用してユーザが選択した関心分野に基づく推薦単語を提供してよく、ユーザは、推薦単語のうちの少なくとも一部を頻繁に使用する単語として登録してよい。
また、音声記録生成部310は、単語の種類または類型などに基づく加重値を適用してカスタムキーワードを抽出してよい。音声記録生成部310は、一般的に使用される単語に比べてよりユニークな単語を重要キーワードとして抽出してよい。例えば、音声記録生成部310は、カスタムキーワードを抽出するにあたり、固有名詞と専門用語に該当する単語には、一般名詞(普通名詞)よりも高い加重値を付与してよい。
また、音声記録生成部310は、カスタムキーワードを抽出するにあたり、正書法チェックなどのような誤字脱字チェックにより、ユーザが入力した単語のうちで明らかに誤字脱字であると判断される単語をカスタムキーワードから除外させてよい。
段階1302で、音声記録生成部310は、段階1301で抽出されたカスタムキーワードに加重値を適用した音声認識により、音声ファイルに対応する音声記録を生成してよい。音声記録生成部310は、音声記録を生成する過程においてカスタムキーワードにブースティングアルゴリズムを適用することにより、該当のキーワードをより正確に認識できるように学習してよい。言い換えれば、音声記録生成部310は、カスタムキーワードに音声認識加重値を適用して他のキーワードよりも高い優先順位として認識されるように処理することにより、カスタムキーワードの認識率を高めてよい。
図14を参照すると、音声記録生成部310は、音声録音中に作成されたメモ1401である<ウェブバージョン追加>から、カスタムキーワード1402<「ウェブ」、「バージョン」、「追加」>を抽出してよく、カスタムキーワード1402にブースティングを適用する音声認識によって改善された音声認識結果1403が得られるようになる。ブースティング前の音声認識結果1404が「外壁で使う機能の超過をしました」であるとするとき、カスタムキーワード1402<「ウェブ」、「バージョン」、「追加」>にブースティングを適用することにより、「ウェブで使う機能の追加をしました」のような、より正確な音声認識結果1403が得られるようになる。例えば、音声認識エンジンで、カスタムキーワード1402を利用して「外壁」のような「ウェブ」と類似する認識をすべて「ウェブ」にチューニングしてよい。
図15を参照すると、音声記録生成部310は、音声録音中に作成されたメモ1501である<iOSイントロ予定>から、カスタムキーワード1502<「iOS」、「イントロ」、「予定」>を抽出してよい。ブースティング前の音声認識結果1504が「アイオーエス側は今こっちの方と」であるとするとき、カスタムキーワード1502<「IOS」、「イントロ」、「予定」>にブースティングを適用することにより、「iOS側は今イントロして」のような、より正確な音声認識結果1503が得られるようになる。音声記録生成部310は、メモ1501の一部のキーワードが英語で入力された場合、外来語や韓国式発音を適用してブースティングしてよい。例えば、音声認識エンジンで、韓国式発音「アイオーエス」をメモ1501に作成された英語表記形式「iOS」にチューニングしてよい。
図16を参照すると、音声記録生成部310は、音声録音中に作成されたメモの他にも、音声記録生成過程でユーザが入力した音声記録のタイトルや参加者情報などを含む音声記録情報1601から、カスタムキーワード1602を抽出することも可能である。例えば、音声記録のタイトルが<Androidデモ>であり、参加者情報が<ホン・ギルドン、キム・ヒョンジェ>であるとき、カスタムキーワード1602として<「Android」、「デモ」、「ホン・ギルドン」、「キム・ヒョンジェ」>を抽出してよい。ブースティング前の音声認識結果1604が「はい、ヒョンジュさん、作ってくれた、お話しください」であるとするとき、カスタムキーワード1602<「Android」、「デモ」、「ホン・ギルドン」、「キム・ヒョンジェ」>にブースティングを適用することにより、「はい、ヒョンジェさん、Androidお話ください」のような、より正確な音声認識結果1603が得られるようになる。
実施形態によっては、話者発声区間ごとの音声認識結果に対し、該当の区間にマッチングされたメモからカスタムキーワードを抽出して該当のキーワードに対するブースティングを適用してよい。言い換えれば、音声記録生成部310は、話者発声区間ごとに異なるカスタムキーワードを適用してもよい。
音声記録が生成された後、音声記録でユーザが編集した単語をカスタムキーワードとして取得した場合には、音声をテキストに変換する音声記録生成過程を再度実行して該当の音声記録をアップデートしてよい。音声記録生成部310は、音声記録アップデート過程でユーザが編集した単語、すなわち、カスタムキーワードにブースティングを適用してよい。
このように、本発明の実施形態によると、対話音声の録音中に該当の対話の脈絡と関連してユーザが入力した単語にブースティングを適用することにより、録音された音声をテキストに変換する過程において、該当の単語をより正確に認識することができる。対話音声を録音する途中にメモ機能を利用してユーザが入力した単語、音声をテキストに変換した音声記録でユーザが編集した単語、ユーザが日常で頻繁に使用する単語などのように、ユーザが入力した単語を学習することで音声認識の正確度を向上させることができる。
また、本発明の実施形態によると、対話音声の録音中に該当の対話の脈絡と関連してユーザが入力した単語にブースティング(boosting)を適用することにより、録音された音声をテキストに変換する過程において、該当の単語をより正確に認識することができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
222:プロセッサ
310:音声記録生成部
320:メモマッチング管理部
330:音声記録提供部

Claims (18)

  1. コンピュータ装置が実行する音声記録管理方法であって、
    前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記音声記録管理方法は、
    前記少なくとも1つのプロセッサにより、音声をテキストに変換して音声記録を生成する段階
    前記少なくとも1つのプロセッサにより、前記音声の録音中にユーザが作成したメモを前記音声記録とマッチングして管理する段階、および
    前記少なくとも1つのプロセッサにより、前記メモからカスタムキーワードを抽出する段階
    を含み、
    前記生成する段階は、
    前記音声と関連して前記カスタムキーワードに加重値を適用した音声認識を実行する段階
    を含む、音声記録管理方法。
  2. 前記実行する段階は、
    前記カスタムキーワードに加重値を適用して優先順位を上げ、前記音声認識を実行すること
    を特徴とする、請求項1に記載の音声記録管理方法。
  3. 前記実行する段階は、
    前記音声の話者発声区間ごとに、該当の区間にマッチングされたメモから前記カスタムキーワードを抽出して前記音声認識を実行すること
    を特徴とする、請求項に記載の音声記録管理方法。
  4. 前記実行する段階は、
    前記ユーザが前記音声記録に関する情報として入力した単語から前記カスタムキーワードを抽出する段階
    を含む、請求項1~のうちのいずれか一項に記載の音声記録管理方法。
  5. 前記実行する段階は、
    前記ユーザが入力した前記音声記録のタイトルと対話に参加する参加者情報から前記カスタムキーワードを抽出する段階
    を含む、請求項1~のうちのいずれか一項に記載の音声記録管理方法。
  6. 前記実行する段階は、
    前記ユーザが頻繁に使用する単語として登録されたキーワードを前記カスタムキーワードとして抽出する段階
    を含む、請求項1~のうちのいずれか一項に記載の音声記録管理方法。
  7. 前記音声記録管理方法は、
    前記少なくとも1つのプロセッサにより、前記音声記録に含まれたテキストに対して編集機能を提供する段階
    をさらに含み、
    前記実行する段階は、
    前記編集機能を利用して前記ユーザが編集した単語から前記カスタムキーワードを抽出する段階
    を含む、請求項1~のうちのいずれか一項に記載の音声記録管理方法。
  8. 前記実行する段階は、
    前記ユーザが入力した単語の種類または類型に基づく加重値によって前記カスタムキーワードを抽出する段階
    を含む、請求項1~のうちのいずれか一項に記載の音声記録管理方法。
  9. 前記実行する段階は、
    前記ユーザが入力した単語に対する誤字脱字チェックにより、一部の単語を前記カスタムキーワードから除外させる段階
    を含む、請求項1~のうちのいずれか一項に記載の音声記録管理方法。
  10. 請求項1~のうちのいずれか一項に記載の音声記録管理方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
  11. コンピュータ装置であって、
    メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    音声をテキストに変換して音声記録を生成する音声記録生成部、および
    前記音声の録音中にユーザが作成したメモを前記音声記録とマッチングして管理するメモマッチング管理部
    を含み、
    前記音声記録生成部は、
    前記メモからカスタムキーワードを抽出し、
    前記音声記録生成部は、
    前記音声と関連して前記カスタムキーワードに加重値を適用した音声認識を実行すること
    を特徴とする、コンピュータ装置。
  12. 前記音声記録生成部は、
    前記カスタムキーワードに加重値を適用して優先順位を上げ、前記音声認識を実行すること
    を特徴とする、請求項11に記載のコンピュータ装置。
  13. 前記音声記録生成部は、
    前記音声の話者発声区間ごとに、該当の区間にマッチングされたメモから前記カスタムキーワードを抽出して前記音声認識を実行すること
    を特徴とする、請求項11に記載のコンピュータ装置。
  14. 前記音声記録生成部は、
    前記ユーザが前記音声記録に関する情報として入力した単語から前記カスタムキーワードを抽出すること
    を特徴とする、請求項1113のうちのいずれか一項に記載のコンピュータ装置。
  15. 前記音声記録生成部は、
    前記ユーザが入力した前記音声記録のタイトルと対話に参加する参加者情報から前記カスタムキーワードを抽出すること
    を特徴とする、請求項1114のうちのいずれか一項に記載のコンピュータ装置。
  16. 前記音声記録生成部は、
    前記ユーザが頻繁に使用する単語として登録されたキーワードを前記カスタムキーワードとして抽出すること
    を特徴とする、請求項1115のうちのいずれか一項に記載のコンピュータ装置。
  17. 前記少なくとも1つのプロセッサは、
    前記音声記録に含まれたテキストに対して編集機能を提供する音声記録提供部
    をさらに含み、
    前記音声記録生成部は、
    前記編集機能を利用して前記ユーザが編集した単語から前記カスタムキーワードを抽出すること
    を特徴とする、請求項1116のうちのいずれか一項に記載のコンピュータ装置。
  18. 前記音声記録生成部は、
    前記ユーザが入力した単語の種類または類型に基づく加重値によって前記カスタムキーワードを抽出すること
    を特徴とする、請求項1117のうちのいずれか一項に記載のコンピュータ装置。
JP2021014195A 2020-10-22 2021-02-01 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体 Active JP7166370B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0137324 2020-10-22
KR1020200137324A KR102446300B1 (ko) 2020-10-22 2020-10-22 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체

Publications (2)

Publication Number Publication Date
JP2022068817A JP2022068817A (ja) 2022-05-10
JP7166370B2 true JP7166370B2 (ja) 2022-11-07

Family

ID=81428729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021014195A Active JP7166370B2 (ja) 2020-10-22 2021-02-01 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体

Country Status (2)

Country Link
JP (1) JP7166370B2 (ja)
KR (1) KR102446300B1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007226091A (ja) 2006-02-27 2007-09-06 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2010175765A (ja) 2009-01-29 2010-08-12 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
JP2011257878A (ja) 2010-06-07 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 重要語句抽出装置及び方法及びプログラム
JP2019105751A (ja) 2017-12-13 2019-06-27 大日本印刷株式会社 表示制御装置、プログラム、表示システム、表示制御方法及び表示データ
US20200403818A1 (en) 2019-06-24 2020-12-24 Dropbox, Inc. Generating improved digital transcripts utilizing digital transcription models that analyze dynamic meeting contexts

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007226091A (ja) 2006-02-27 2007-09-06 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2010175765A (ja) 2009-01-29 2010-08-12 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
JP2011257878A (ja) 2010-06-07 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 重要語句抽出装置及び方法及びプログラム
JP2019105751A (ja) 2017-12-13 2019-06-27 大日本印刷株式会社 表示制御装置、プログラム、表示システム、表示制御方法及び表示データ
US20200403818A1 (en) 2019-06-24 2020-12-24 Dropbox, Inc. Generating improved digital transcripts utilizing digital transcription models that analyze dynamic meeting contexts

Also Published As

Publication number Publication date
KR102446300B1 (ko) 2022-09-22
KR20220053182A (ko) 2022-04-29
JP2022068817A (ja) 2022-05-10

Similar Documents

Publication Publication Date Title
US10902841B2 (en) Personalized custom synthetic speech
CN103558964B (zh) 电子设备中的多层次话音反馈
US20210082394A1 (en) Method, apparatus, device and computer storage medium for generating speech packet
US20200042279A1 (en) Platform for producing and delivering media content
WO2018067368A1 (en) Hierarchical annotation of dialog acts
TWI807428B (zh) 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
KR20200011198A (ko) 대화형 메시지 구현 방법, 장치 및 프로그램
JP7225380B2 (ja) 音声パケット記録機能のガイド方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
JP7166370B2 (ja) 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体
JP7254842B2 (ja) アプリとウェブサイトの連動によって音声ファイルに対するメモを作成する方法、システム、およびコンピュータ読み取り可能な記録媒体
US20060149545A1 (en) Method and apparatus of speech template selection for speech recognition
KR102437752B1 (ko) 인공지능 디바이스와 연동하여 음성 기록을 관리하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
CN108255917A (zh) 图像管理方法、设备及电子设备
JP7183316B2 (ja) 音声記録検索方法、コンピュータ装置およびコンピュータプログラム
JP7166373B2 (ja) 音声ファイルに対するテキスト変換記録とメモをともに管理する方法、システム、およびコンピュータ読み取り可能な記録媒体
CN113868445A (zh) 续播位置确定方法、续播系统
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
KR102353797B1 (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
US9471205B1 (en) Computer-implemented method for providing a media accompaniment for segmented activities
Hillmann et al. User Behaviour Model for the Evaluation of Interactive Systems
JP2022139053A (ja) 検索支援サーバ、検索支援方法及びコンピュータプログラム
KR20190142761A (ko) 멀티미디어 핵심추출로 새로운 콘텐츠 만들기
CN112102820A (zh) 交互方法、交互装置、电子设备和介质
Lux Category Archives: Open Source Column

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210201

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210414

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221025

R150 Certificate of patent or registration of utility model

Ref document number: 7166370

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350