JP7348957B2 - コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング - Google Patents
コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング Download PDFInfo
- Publication number
- JP7348957B2 JP7348957B2 JP2021561012A JP2021561012A JP7348957B2 JP 7348957 B2 JP7348957 B2 JP 7348957B2 JP 2021561012 A JP2021561012 A JP 2021561012A JP 2021561012 A JP2021561012 A JP 2021561012A JP 7348957 B2 JP7348957 B2 JP 7348957B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- audio data
- computing device
- captioning
- description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 claims description 88
- 238000000034 method Methods 0.000 claims description 84
- 230000002085 persistent effect Effects 0.000 claims description 37
- 230000004044 response Effects 0.000 claims description 35
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000000306 recurrent effect Effects 0.000 claims description 20
- 230000000007 visual effect Effects 0.000 claims description 14
- 241001465754 Metazoa Species 0.000 claims description 9
- 238000013518 transcription Methods 0.000 claims description 9
- 230000035897 transcription Effects 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 description 21
- 238000012549 training Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 241000282320 Panthera leo Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010370 hearing loss Effects 0.000 description 2
- 231100000888 hearing loss Toxicity 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
Description
プロが制作した映画およびテレビ番組以外の大半の可聴コンテンツはキャプショニングされていないため、コンテンツは、難聴またはその他の理由でコンテンツを聞くことができない多くのユーザにとってアクセスしにくくなっている。いくつかの自動キャプショニングシステムが利用可能であるが、これらのシステムは高価で、複雑で、維持するのが困難である場合がある。自動キャプショニングシステムの中には、入力としてスピーカへの音声出力を必要とするものもあり、そのようなシステムは、静かな環境でキャプショニングを提供することには適さないであろう。自動キャプショニングシステムの維持に関わるコストおよび複雑さを回避するために、コンピューティングデバイスの中には、キャプショニングのためにコンテンツをリモートサーバにアップロードすることを必要とするクラウドベースのキャプショニングサービスにアクセスするものもあるが、それによって、もしかするとユーザのプライバシおよび利便性が減少する。
ローカルのシステムレベルのサービスとしてコンテンツを自動的にキャプショニングするためのコンピューティングデバイスが記載されている。このコンピューティングデバイスは、入力としてスピーカに送られる音声信号に含まれる情報に頼ることが多い他のキャプショニングシステムとは異なって、コンテンツソース(たとえば、アプリケーション)から出力される音声データから直接キャプションを生成する。コンピューティングデバイスは、音声データにタグ付けされたメタデータ(たとえば、非音声部分)を分析して、音声データがキャプショニングに適しているか否かまたは音声データが他のタイプの音声データ(たとえば、システムサウンド効果)であるか否かを判断してもよい。
プロが制作した映画およびテレビ番組以外の大半の可聴コンテンツはキャプショニングされていないため、コンテンツは、難聴またはその他の理由でコンテンツを聞くことができない多くのユーザにとってアクセスしにくくなっている。手動および自動キャプショニングシステムが存在するが、さまざまな欠点を抱えている。
コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法であって、上記方法は、上記コンピューティングデバイスで実行されるアプリケーションから出力される音声データを、上記コンピューティングデバイスのオーディオミキサから取得するステップを備え、上記音声データは、上記コンテンツの上記可聴部分を示すデータを含み、上記方法はさらに、上記音声データから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップと、上記音声データがキャプショニングに適したタイプであると判断したことに応答して、上記コンテンツの上記可聴部分の説明を決定するステップと、上記コンテンツのビジュアル部分を表示しながら、表示のために上記コンテンツの上記可聴部分の上記説明を出力するステップとを備える、方法。
上記コンテンツの上記可聴部分を示す上記データは、非メタデータであり、上記音声データは、メタデータをさらに含み、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップは、上記メタデータから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップを含む、第1項に記載の方法。
上記コンテンツの上記可聴部分の上記説明は、上記コンテンツの上記可聴部分からの話された音声のトランスクリプションを含む、第1項および第2項のいずれか1項に記載の方法。
上記コンテンツの上記可聴部分の上記説明は、上記コンテンツの上記可聴部分からの話されたものではない音声の説明を含む、第1項から第3項のいずれか1項に記載の方法。
上記話されたものではない音声は、特定の発生源からの雑音を含み、上記特定の発生源からの上記雑音の説明は、上記特定の発生源の表示を含む、第4項に記載の方法。
上記雑音は、動物を発生源とする動物雑音を含み、または上記雑音は、動物を発生源としない環境雑音を含む、第5項に記載の方法。
上記コンテンツの上記可聴部分の上記説明を決定するステップは、上記コンピューティングデバイスが、機械学習モデルを実行するステップを含み、上記機械学習モデルは、上記コンテンツの上記可聴部分の上記説明を決定するために音声データから説明を決定するように訓練される、第1項から第6項のいずれか1項に記載の方法。
上記機械学習モデルは、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデルを含む、第7項に記載の方法。
上記コンテンツの上記可聴部分を示す上記データは、キャプショニングのために注釈を付けられていない注釈なしデータを含む、第1項から第8項のいずれか1項に記載の方法。
コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法であって、上記方法は、上記コンピューティングデバイスが、上記コンピューティングデバイスで実行されるアプリケーションのグラフィカルユーザインターフェイスを表示するステップと、上記グラフィカルユーザインターフェイスを表示しながら、上記アプリケーションから出力される音声データを取得するステップとを備え、上記音声データは、上記コンテンツの上記可聴部分を示すデータを含み、上記方法はさらに、上記音声データから、上記音声データが自動キャプショニングに適したタイプであるか否かを判断するステップと、上記音声データが自動キャプショニングに適したタイプであると判断したことに応答して、上記コンテンツの上記可聴部分の説明を決定するステップと、上記コンテンツのビジュアル部分を上記アプリケーションの上記グラフィカルユーザインターフェイス内に表示しながら、表示のために上記コンテンツの上記可聴部分の上記説明を上記アプリケーションの上記グラフィカルユーザインターフェイスから区別された持続的な要素として出力するステップとを備える、方法。
上記説明は、上記コンテンツの上記可聴部分から抽出された話された音声のトランスクリプション、または、上記コンテンツの上記可聴部分から抽出された話されたものではない音声を示すテキストのうちの少なくとも1つを含む、第10項に記載の方法。
上記コンテンツの上記可聴部分を示す上記データは、非メタデータであり、上記音声データは、メタデータをさらに含み、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップは、上記メタデータから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップを含む、第10項から第11項のいずれか1項に記載の方法。
上記説明は、上記コンテンツの上記可聴部分のさまざまな部分について人間を発生源とするか人間以外を発生源とするかを特定するテキストを含む、第10項から第12項のいずれか1項に記載の方法。
上記持続的な要素に関連付けられたユーザ入力を受信したことに応答して、上記コンテンツの上記可聴部分から生成される以前または以後の説明を表示するように上記持続的な要素のサイズを変更するステップをさらに備える、第10項から第13項のいずれか1項に記載の方法。
上記持続的な要素は、上記アプリケーションの上記グラフィカルユーザインターフェイスの第1の部分を見えにくくすることによって表示のために出力され、上記方法はさらに、上記持続的な要素に関連付けられたユーザ入力を受信したことに応答して、上記アプリケーションの上記グラフィカルユーザインターフェイスの第2の部分を見えにくくするために、上記アプリケーションの上記グラフィカルユーザインターフェイスの上記第1の部分から区別されるように上記持続的な要素を移動させるステップを備える、第10項から第14項のいずれか1項に記載の方法。
コンピューティングデバイス上でコンテンツの可聴部分を自動的にキャプショニングするための方法であって、上記方法は、上記コンピューティングデバイスで実行されるアプリケーションからの音声データを自動的にキャプショニングするためのユーザ入力を受信するステップと、上記ユーザ入力を受信したことに応答して、上記コンピューティングデバイスで実行される上記アプリケーションから出力される上記音声データを取得するステップとを備え、上記音声データは、上記コンテンツの上記可聴部分を示すデータを含み、上記方法はさらに、上記音声データから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップと、上記音声データがキャプショニングに適したタイプであると判断したことに応答して、上記コンテンツの上記可聴部分の説明を決定するステップと、表示のために上記コンテンツの上記可聴部分の上記説明を上記コンテンツのビジュアル部分から区別され、かつ上記アプリケーションのグラフィカルユーザインターフェイスから区別された持続的な要素として出力するステップとを備える、方法。
上記コンテンツの上記可聴部分を示す上記データは、非メタデータであり、上記音声データは、メタデータをさらに含み、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップは、上記メタデータから、上記音声データがキャプショニングに適したタイプであるか否かを判断するステップを含む、第16項に記載の方法。
前記音声データを自動的にキャプショニングするための前記ユーザ入力を受信するステップは、前記コンピューティングデバイスの音声設定メニュー内にキャプション制御要素を表示するステップと、前記キャプション制御要素のユーザ選択を検出したことに応答して、前記音声データを自動的にキャプショニングするための前記ユーザ入力を受信するステップとを含む、第16項または第17項のいずれか1項に記載の方法。
前記キャプション制御要素の後続の選択を受信したことに応答して、前記コンピューティングデバイス上で前記コンテンツの前記可聴部分をキャプショニングすることを自動的に中止するステップをさらに備える、第18項に記載の方法。
前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記コンピューティングデバイスのスピーカ、ヘッドホンジャックまたは他のサウンドシステムを使用して前記コンテンツの前記可聴部分を出力することを控えながら前記説明を出力するステップを含む、第16項から第19項のいずれか1項に記載の方法。
前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記コンピューティングデバイスのスピーカ、ヘッドホンジャックまたは他のサウンドシステムを使用して前記コンテンツの前記可聴部分を出力しながら前記説明を出力するステップを含む、第16項から第19項のいずれか1項に記載の方法。
音声データの説明を決定するように機械学習モデルを訓練するステップをさらに備え、前記説明を決定するステップは、前記機械学習モデルを使用して前記説明を決定するステップを含む、第1項から第21項のいずれか1項に記載の方法。
前記機械学習モデルを訓練するステップは、以前にキャプショニングされたコンテンツを使用して、前記以前にキャプショニングされたコンテンツの音声から前記以前にキャプショニングされたコンテンツに埋め込まれたキャプションを推論するように前記機械学習モデルを構成するステップを含む、第22項に記載の方法。
前記機械学習モデルを訓練するステップは、前記機械学習モデルへの訓練入力として前記説明を使用するステップを含む、第22項に記載の方法。
第1項から第24項に記載の方法のいずれかを実行するように構成された少なくとも1つのプロセッサを備えるコンピューティングデバイス。
第1項から第24項に記載の方法のいずれかを実行するための手段を備えるシステム。
実行されると第1項から第24項に記載の方法のいずれかを実行するようにコンピューティングデバイスのプロセッサを構成する命令を備えるコンピュータ読取可能記憶媒体。
Claims (15)
- コンピュータによって実現される方法であって、
コンピューティングデバイスのプロセッサが、前記コンピューティングデバイスで実行されるアプリケーションから出力される音声データを、前記コンピューティングデバイスのオーディオミキサから取得するステップを備え、前記音声データは、コンテンツの可聴部分を示す非メタデータと、当該音声データにタグ付けされたメタデータであって前記コンテンツのタイプを示すタイプ識別子を有したメタデータとを含み、前記方法はさらに、
前記プロセッサが、前記音声データにタグ付けされた前記メタデータが有する前記タイプ識別子は、キャプショニングに適したコンテンツのタイプを示すか否かを判断するステップと、
前記タイプ識別子がキャプショニングに適したタイプを示すと判断したことに応答して、前記プロセッサが、前記キャプショニングのために前記コンテンツの前記可聴部分の説明を決定するステップと、
前記プロセッサが、表示のために前記コンテンツの前記可聴部分の前記説明を出力するステップとを備える、方法。 - 前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記プロセッサが、表示のためにキャプション制御要素を出力するステップを、含み、
前記キャプション制御要素は、前記コンピューティングデバイスが、前記キャプショニングを実施していることを示すアイコンを含む、請求項1に記載の方法。 - 前記コンテンツの前記可聴部分の前記説明は、前記コンテンツの前記可聴部分からの話された音声のトランスクリプションを含む、請求項1または2に記載の方法。
- 前記コンテンツの前記可聴部分の前記説明は、前記コンテンツの前記可聴部分からの話されたものではない音声の説明を含む、請求項1から3のいずれか1項に記載の方法。
- 前記話されたものではない音声は、特定の発生源からの雑音を含み、前記特定の発生源からの前記雑音の前記説明は、前記特定の発生源の表示を含む、請求項4に記載の方法。
- 前記雑音は、動物を発生源とする動物雑音を含み、または
前記雑音は、動物を発生源としない環境雑音を含む、請求項5に記載の方法。 - 前記コンテンツの前記可聴部分の前記説明を決定するステップは、前記コンピューティングデバイスの前記プロセッサが、機械学習モデルを実行するステップを含み、前記機械学習モデルは、前記コンテンツの前記可聴部分の前記説明を決定するために前記音声データから説明を決定するように訓練される、請求項1から6のいずれか1項に記載の方法。
- 前記機械学習モデルは、エンドツーエンド回帰型ニューラルネットワークトランスデューサ自動発話認識モデルを含む、請求項7に記載の方法。
- 前記コンテンツの前記可聴部分を示す前記非メタデータは、キャプショニングのために注釈を付けられていない注釈なしデータを含む、請求項1から8のいずれか1項に記載の方法。
- 前記説明は、前記コンテンツの前記可聴部分から抽出された話されたものではない音声を示すテキストを含む、請求項1から9のいずれか1項に記載の方法。
- 前記説明は、前記コンテンツの前記可聴部分のさまざまな部分について人間を発生源とするか人間以外を発生源とするかを特定するテキストを含む、請求項1から10のいずれか1項に記載の方法。
- 前記コンテンツの前記可聴部分の前記説明を出力するステップは、前記プロセッサが、表示のために、前記コンテンツのビジュアル部分から区別され、かつ前記アプリケーションのグラフィカルユーザインターフェイスから区別された持続的な要素として、前記コンテンツの前記可聴部分の前記説明を出力するステップを含む、請求項1から11のいずれか1項に記載の方法。
- 前記プロセッサが、前記持続的な要素に関連付けられたユーザ入力を受信したことに応答して、前記コンテンツの前記可聴部分から生成される以前または以後の説明を表示するように前記持続的な要素のサイズを変更するステップをさらに備える、請求項12に記載の方法。
- 請求項1から13のいずれか1項に記載の方法を実行するように構成された少なくとも1つのプロセッサを備えるコンピューティングデバイス。
- 請求項1から13のいずれか1項に記載の方法をプロセッサに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023146081A JP2023175757A (ja) | 2019-05-02 | 2023-09-08 | コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962842017P | 2019-05-02 | 2019-05-02 | |
US62/842,017 | 2019-05-02 | ||
PCT/US2019/035164 WO2020222851A1 (en) | 2019-05-02 | 2019-06-03 | Automatically captioning audible parts of content on a computing device |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023146081A Division JP2023175757A (ja) | 2019-05-02 | 2023-09-08 | コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022530201A JP2022530201A (ja) | 2022-06-28 |
JP7348957B2 true JP7348957B2 (ja) | 2023-09-21 |
Family
ID=66913088
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021561012A Active JP7348957B2 (ja) | 2019-05-02 | 2019-06-03 | コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング |
JP2023146081A Pending JP2023175757A (ja) | 2019-05-02 | 2023-09-08 | コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023146081A Pending JP2023175757A (ja) | 2019-05-02 | 2023-09-08 | コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング |
Country Status (7)
Country | Link |
---|---|
US (1) | US20220148614A1 (ja) |
EP (1) | EP3963580A1 (ja) |
JP (2) | JP7348957B2 (ja) |
KR (2) | KR20240013294A (ja) |
CN (1) | CN113692619A (ja) |
DE (1) | DE112019007274T5 (ja) |
WO (1) | WO2020222851A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210350790A1 (en) * | 2020-05-06 | 2021-11-11 | Spotify Ab | Systems and methods for inferring the language of media content item |
US11857877B2 (en) * | 2021-12-23 | 2024-01-02 | Ati Technologies Ulc | Automatic in-game subtitles and closed captions |
DE102022003089A1 (de) | 2022-08-23 | 2024-02-29 | Mercedes-Benz Group AG | Signalausgabevorrichtung und Kraftfahrzeug mit einer solchen Signalausgabevorrichtung |
US12003825B1 (en) * | 2022-09-21 | 2024-06-04 | Amazon Technologies, Inc. | Enhanced control of video subtitles |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005045503A (ja) | 2003-07-28 | 2005-02-17 | Toshiba Corp | 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム |
JP2008079018A (ja) | 2006-09-21 | 2008-04-03 | Matsushita Electric Ind Co Ltd | 字幕生成装置、字幕生成方法および字幕生成プログラム |
JP2015212732A (ja) | 2014-05-01 | 2015-11-26 | 日本放送協会 | 音喩認識装置、及びプログラム |
WO2016075781A1 (ja) | 2014-11-12 | 2016-05-19 | 富士通株式会社 | ウェアラブルデバイス、表示制御方法、及び表示制御プログラム |
US20170278525A1 (en) | 2016-03-24 | 2017-09-28 | Google Inc. | Automatic smoothed captioning of non-speech sounds from audio |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7221405B2 (en) * | 2001-01-31 | 2007-05-22 | International Business Machines Corporation | Universal closed caption portable receiver |
US7050109B2 (en) * | 2001-03-02 | 2006-05-23 | General Instrument Corporation | Methods and apparatus for the provision of user selected advanced close captions |
JP4486030B2 (ja) * | 2005-11-29 | 2010-06-23 | 京セラ株式会社 | 放送受信機能付き携帯通信端末 |
US20150228274A1 (en) * | 2012-10-26 | 2015-08-13 | Nokia Technologies Oy | Multi-Device Speech Recognition |
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
WO2015038749A1 (en) * | 2013-09-13 | 2015-03-19 | Arris Enterprises, Inc. | Content based video content segmentation |
CN103561217A (zh) * | 2013-10-14 | 2014-02-05 | 深圳创维数字技术股份有限公司 | 一种生成字幕的方法及终端 |
CN106331844A (zh) * | 2016-08-17 | 2017-01-11 | 北京金山安全软件有限公司 | 一种媒体文件字幕的生成方法、装置及电子设备 |
US10679643B2 (en) * | 2016-08-31 | 2020-06-09 | Gregory Frederick Diamos | Automatic audio captioning |
CN106504754B (zh) * | 2016-09-29 | 2019-10-18 | 浙江大学 | 一种根据音频输出的实时字幕生成方法 |
CN107277613A (zh) * | 2017-05-31 | 2017-10-20 | 深圳Tcl新技术有限公司 | 字幕显示方法、终端及计算机可读存储介质 |
US10580457B2 (en) * | 2017-06-13 | 2020-03-03 | 3Play Media, Inc. | Efficient audio description systems and methods |
US10977299B2 (en) * | 2018-05-30 | 2021-04-13 | Baidu Usa Llc | Systems and methods for consolidating recorded content |
-
2019
- 2019-06-03 CN CN201980095398.2A patent/CN113692619A/zh active Pending
- 2019-06-03 US US17/437,725 patent/US20220148614A1/en active Pending
- 2019-06-03 KR KR1020247002463A patent/KR20240013294A/ko active Application Filing
- 2019-06-03 JP JP2021561012A patent/JP7348957B2/ja active Active
- 2019-06-03 KR KR1020217036159A patent/KR102629552B1/ko active IP Right Grant
- 2019-06-03 DE DE112019007274.9T patent/DE112019007274T5/de active Pending
- 2019-06-03 WO PCT/US2019/035164 patent/WO2020222851A1/en unknown
- 2019-06-03 EP EP19731559.1A patent/EP3963580A1/en active Pending
-
2023
- 2023-09-08 JP JP2023146081A patent/JP2023175757A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005045503A (ja) | 2003-07-28 | 2005-02-17 | Toshiba Corp | 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム |
JP2008079018A (ja) | 2006-09-21 | 2008-04-03 | Matsushita Electric Ind Co Ltd | 字幕生成装置、字幕生成方法および字幕生成プログラム |
JP2015212732A (ja) | 2014-05-01 | 2015-11-26 | 日本放送協会 | 音喩認識装置、及びプログラム |
WO2016075781A1 (ja) | 2014-11-12 | 2016-05-19 | 富士通株式会社 | ウェアラブルデバイス、表示制御方法、及び表示制御プログラム |
US20170278525A1 (en) | 2016-03-24 | 2017-09-28 | Google Inc. | Automatic smoothed captioning of non-speech sounds from audio |
Also Published As
Publication number | Publication date |
---|---|
JP2023175757A (ja) | 2023-12-12 |
US20220148614A1 (en) | 2022-05-12 |
WO2020222851A1 (en) | 2020-11-05 |
DE112019007274T5 (de) | 2022-01-20 |
KR20210151874A (ko) | 2021-12-14 |
KR102629552B1 (ko) | 2024-01-25 |
JP2022530201A (ja) | 2022-06-28 |
KR20240013294A (ko) | 2024-01-30 |
EP3963580A1 (en) | 2022-03-09 |
CN113692619A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7348957B2 (ja) | コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング | |
KR102290419B1 (ko) | 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치 | |
CN107464555B (zh) | 增强包含语音的音频数据的方法、计算装置和介质 | |
CN104038827B (zh) | 多媒体播放方法及装置 | |
CN112449253B (zh) | 交互式视频生成 | |
US20210243528A1 (en) | Spatial Audio Signal Filtering | |
US10684754B2 (en) | Method of providing visual sound image and electronic device implementing the same | |
EP3701521B1 (en) | Voice recognition apparatus and operation method thereof cross-reference to related application | |
EP3916538B1 (en) | Creating a cinematic storytelling experience using network-addressable devices | |
US20220392437A1 (en) | Voice-based word recognition systems | |
US11967338B2 (en) | Systems and methods for a computerized interactive voice companion | |
US11587571B2 (en) | Electronic apparatus and control method thereof | |
JP7070546B2 (ja) | 情報処理装置および情報処理方法 | |
US11902690B2 (en) | Machine learning driven teleprompter | |
US11501208B2 (en) | Rehearsal-based presentation assistance | |
CN115461709A (zh) | 来自环境语音的分层场境特定动作 | |
US12015865B2 (en) | System and methods for evoking authentic emotions from live photographic and video subjects | |
US11513767B2 (en) | Method and system for recognizing a reproduced utterance | |
CN114968164A (zh) | 语音处理方法、系统、装置和终端设备 | |
JP2022163217A (ja) | 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム | |
JP2021140485A (ja) | 情報処理装置及び情報処理方法 | |
CN114911346A (zh) | 一种终端设备的交互方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211019 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221122 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230711 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7348957 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |