JP2021521525A - ネットワークにおけるデジタルコンテンツの音声ベースの検索 - Google Patents
ネットワークにおけるデジタルコンテンツの音声ベースの検索 Download PDFInfo
- Publication number
- JP2021521525A JP2021521525A JP2020555514A JP2020555514A JP2021521525A JP 2021521525 A JP2021521525 A JP 2021521525A JP 2020555514 A JP2020555514 A JP 2020555514A JP 2020555514 A JP2020555514 A JP 2020555514A JP 2021521525 A JP2021521525 A JP 2021521525A
- Authority
- JP
- Japan
- Prior art keywords
- component
- digital
- parsing
- breakpoints
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 135
- 238000000034 method Methods 0.000 claims abstract description 99
- 238000012545 processing Methods 0.000 claims description 134
- 230000007704 transition Effects 0.000 claims description 17
- 230000014509 gene expression Effects 0.000 claims description 15
- 238000003058 natural language processing Methods 0.000 description 43
- 230000008569 process Effects 0.000 description 14
- 230000004044 response Effects 0.000 description 12
- 230000009471 action Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000008439 repair process Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 230000000153 supplemental effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
- G06F16/745—Browsing; Visualisation therefor the internal structure of a single video sequence
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47217—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本出願は、2018年5月7日に出願した「MULTI-MODAL INTERFACE IN A VOICE-ACTIVATED NETWORK」と題する米国非仮特許出願第15/973,447号の優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。
102 データ処理システム
104 クライアントコンピューティングデバイス
105 ネットワーク
106 デジタルコンポーネントプロバイダデバイス
110 インタフェース
112 リモートデジタルアシスタントコンポーネント
114 自然言語プロセッサコンポーネント
116 構文解析コンポーネント
120 デジタルコンポーネントセレクタ
124 データリポジトリ
126 アノテーション
128 ブレークポイント
130 キャプションデータ
132 コンテンツデータ
134 ローカルデジタルアシスタント
135 アノテーションコンポーネント
138 センサ
140 トランスデューサ
142 オーディオドライバ
144 ディスプレイ
200 デジタルコンポーネント
201(1) 部分
201(2) 部分
201(3) 部分
201(4) 部分
201(5) 部分
202(1) ブレークポイント
202(2) ブレークポイント
202(3) ブレークポイント
202(4) ブレークポイント
403 テキスト
404 デジタルコンポーネント
405 ビデオコンポーネント
406 テキストコンポーネント
407 デジタルコンポーネント
408 追加のデジタルコンポーネント
409 テキスト
500 コンピュータシステム
505 バス
510 プロセッサ
515 メインメモリ
520 ROM
525 ストレージデバイス
530 入力デバイス
535 ディスプレイ
Claims (34)
- 音声作動システムにおいてデジタルコンポーネントを制御するシステムであって、
1つまたは複数のプロセッサおよびメモリを備えるデータ処理システムを備え、前記1つまたは複数のプロセッサが、自然言語プロセッサコンポーネント、アノテーションコンポーネントおよび構文解析コンポーネントを実行して、
前記自然言語プロセッサコンポーネントによって、前記データ処理システムのインタフェースを介して、クライアントコンピューティングデバイスにおいてセンサによって検出される第1の入力オーディオ信号を受信することと、
前記自然言語プロセッサコンポーネントによって、前記第1の入力オーディオ信号を構文解析して、前記第1の入力オーディオ信号中にデジタルコンポーネント要求を識別することであって、前記デジタルコンポーネント要求が第1のデジタルコンポーネントを示す、識別することと、
前記アノテーションコンポーネントによって、前記第1のデジタルコンポーネント中に認識される発語に少なくとも基づいて前記第1のデジタルコンポーネントの第1のアノテーションのセットを生成することと、
前記構文解析コンポーネントによって、少なくとも前記第1のアノテーションのセットに基づいて複数のブレークポイントを識別することと、
前記自然言語プロセッサコンポーネントによって、前記クライアントコンピューティングデバイスにおいて前記センサによって検出される第2の入力オーディオ信号を受信することと、
前記自然言語プロセッサコンポーネントによって、前記第2の入力オーディオ信号を構文解析して、前記第2の入力オーディオ信号中に用語を識別することと、
前記構文解析コンポーネントによって、前記用語に基づいて前記複数のブレークポイントからブレークポイントを選択することと、
前記構文解析コンポーネントによって、前記クライアントコンピューティングデバイスに、前記ブレークポイントに対応する前記第1のデジタルコンポーネントの一部分を送信することと
を行う、システム。 - 前記複数のブレークポイントから選択された前記ブレークポイントに基づいて第2のデジタルコンポーネントを選択することと、
前記ブレークポイントに対応する前記第1のデジタルコンポーネントの前記部分と共に前記クライアントコンピューティングデバイスに前記第2のデジタルコンポーネントを送信することと
を行うコンテンツ選択コンポーネントを備える、請求項1に記載のシステム。 - 前記アノテーションコンポーネントが、前記第1のデジタルコンポーネント中の画像に基づいて前記第1のデジタルコンポーネントの第2のアノテーションのセットを生成し、
前記構文解析コンポーネントが、前記第2のアノテーションのセットに基づいて前記複数のブレークポイントを識別する、
請求項1に記載のシステム。 - 前記アノテーションコンポーネントが、前記デジタルコンポーネント中のクローズドキャプションデータに基づいて前記第1のデジタルコンポーネントの第2のアノテーションのセットを生成する、
請求項1に記載のシステム。 - 前記アノテーションコンポーネントが、第2のクライアントコンピューティングデバイスから前記第1のデジタルコンポーネントの第2のアノテーションのセットを受信し、
前記構文解析コンポーネントが、前記第2のアノテーションのセットに基づいて前記複数のブレークポイントを識別する、
請求項1に記載のシステム。 - 前記構文解析コンポーネントが、
前記第1のデジタルコンポーネント中にシーン遷移を識別し、
前記シーン遷移に基づいて前記複数のブレークポイントを識別する、
請求項1に記載のシステム。 - 前記自然言語プロセッサコンポーネントが、
前記クライアントコンピューティングデバイスにおいて前記センサによって検出される第3の入力オーディオ信号を受信し、
前記第3の入力オーディオ信号を構文解析して、前記複数のブレークポイントのうちの第2のブレークポイントの指示を識別し、
前記構文解析コンポーネントが、前記クライアントコンピューティングデバイスに、前記第2のブレークポイントに対応する前記第1のデジタルコンポーネントの第2の部分を送信する、
請求項1に記載のシステム。 - 前記自然言語プロセッサコンポーネントが、前記第1の入力オーディオ信号を構文解析して、前記第1の入力オーディオ信号中に第1の意味表現を識別し、
前記構文解析コンポーネントが、前記第1の意味論的意味に基づいて前記複数のブレークポイントから前記ブレークポイントを選択する、
請求項1に記載のシステム。 - 前記構文解析コンポーネントが、
前記複数のブレークポイントに基づいて前記第1のデジタルコンポーネントの複数の部分を生成し、
前記第1のデジタルコンポーネントの前記複数の部分の各々に対する意味表現を決定する、
請求項1に記載のシステム。 - 前記アノテーションコンポーネントが、前記第1のデジタルコンポーネントの前記複数の部分の各々に対する前記意味表現に基づいて前記第1のデジタルコンポーネントの第2のアノテーションのセットを生成し、
前記構文解析コンポーネントが、前記第2のアノテーションのセットに基づいて前記複数のブレークポイントを識別する、
請求項9に記載のシステム。 - 前記複数のブレークポイントの各々が異なるシーンの開始に対応する、請求項1に記載のシステム。
- 前記構文解析コンポーネントが、
前記複数のブレークポイントの各々の指示を含む第2のデジタルコンポーネントを生成し、
前記ブレークポイントに対応する前記第1のデジタルコンポーネントの前記部分を伴う提示のために前記クライアントコンピューティングデバイスに前記第2のデジタルコンポーネントを送信する、
請求項1に記載のシステム。 - 前記自然言語プロセッサコンポーネントが、前記クライアントコンピューティングデバイスから、前記複数のブレークポイントのうちの1つの選択を含む第3の入力オーディオ信号を受信し、
前記構文解析コンポーネントが、前記複数のブレークポイントのうちの1つの前記選択に基づいて前記複数のブレークポイントから前記ブレークポイントを選択する、
請求項12に記載のシステム。 - 音声作動システムにおいてデジタルコンポーネントを制御する方法であって、
データ処理システムによって実行される自然言語プロセッサコンポーネントによって、前記データ処理システムのインタフェースを介して、クライアントコンピューティングデバイスにおいてセンサによって検出される第1の入力オーディオ信号を受信するステップと、
前記自然言語プロセッサコンポーネントによって、前記第1の入力オーディオ信号を構文解析して、前記第1の入力オーディオ信号中にデジタルコンポーネント要求を識別するステップであって、前記デジタルコンポーネント要求が第1のデジタルコンポーネントを示す、ステップと、
前記データ処理システムによって実行されるアノテーションコンポーネントによって、前記第1のデジタルコンポーネント中に認識される発語に少なくとも基づいて前記第1のデジタルコンポーネントの第1のアノテーションのセットを生成するステップと、
前記データ処理システムによって実行される構文解析コンポーネントによって、少なくとも前記第1のアノテーションのセットに基づいて複数のブレークポイントを識別するステップと、
前記自然言語プロセッサコンポーネントによって、前記クライアントコンピューティングデバイスにおいて前記センサによって検出される第2の入力オーディオ信号を受信するステップと、
前記自然言語プロセッサコンポーネントによって、前記第2の入力オーディオ信号を構文解析して、前記第2の入力オーディオ信号中に用語を識別するステップと、
前記構文解析コンポーネントによって、前記用語に基づいて前記複数のブレークポイントからブレークポイントを選択するステップと、
前記構文解析コンポーネントによって、前記クライアントコンピューティングデバイスに、前記ブレークポイントに対応する前記第1のデジタルコンポーネントの一部分を送信するステップと
を含む方法。 - 前記データ処理システムによって実行されるコンテンツ選択コンポーネントによって、前記複数のブレークポイントから選択された前記ブレークポイントに基づいて第2のデジタルコンポーネントを選択するステップと、
前記コンテンツ選択コンポーネントによって、前記ブレークポイントに対応する前記第1のデジタルコンポーネントの前記部分と共に前記クライアントコンピューティングデバイスに前記第2のデジタルコンポーネントを送信するステップと
を含む、請求項14に記載の方法。 - 前記アノテーションコンポーネントによって、前記デジタルコンポーネント中の画像に基づいて前記第1のデジタルコンポーネントの第2のアノテーションのセットを生成するステップと、
前記構文解析コンポーネントによって、前記第2のアノテーションのセットに基づいて前記複数のブレークポイントを識別するステップと
を含む、請求項14に記載の方法。 - 前記アノテーションコンポーネントによって、第2のクライアントコンピューティングデバイスから前記第1のデジタルコンポーネントの第2のアノテーションのセットを受信するステップと、
前記構文解析コンポーネントによって、前記第2のアノテーションのセットに基づいて前記複数のブレークポイントを識別するステップと
を含む、請求項14に記載の方法。 - 前記自然言語プロセッサコンポーネントによって、前記クライアントコンピューティングデバイスにおいて前記センサによって検出される第3の入力オーディオ信号を受信するステップと、
前記自然言語プロセッサコンポーネントによって、前記第3の入力オーディオ信号を構文解析して、前記複数のブレークポイントのうちの第2のブレークポイントの指示を識別するステップと、
前記構文解析コンポーネントによって前記クライアントコンピューティングデバイスに、前記第2のブレークポイントに対応する前記第1のデジタルコンポーネントの第2の部分を送信するステップと
を含む、請求項14に記載の方法。 - 前記自然言語プロセッサコンポーネントによって、前記第1の入力オーディオ信号を構文解析して、前記第1の入力オーディオ信号中に第1の意味表現を識別するステップと、
前記構文解析コンポーネントによって、前記第1の意味論的意味に基づいて前記複数のブレークポイントから前記ブレークポイントを選択するステップと
を含む、請求項14に記載の方法。 - 前記構文解析コンポーネントによって、前記複数のブレークポイントの各々の指示を含む第2のデジタルコンポーネントを生成するステップと、
前記構文解析コンポーネントによって、前記ブレークポイントに対応する前記第1のデジタルコンポーネントの前記部分を伴う提示のために前記クライアントコンピューティングデバイスに前記第2のデジタルコンポーネントを送信するステップと、
前記クライアントコンピューティングデバイスから前記自然言語プロセッサコンポーネントによって、前記複数のブレークポイントのうちの1つの選択を含む第3の入力オーディオ信号を受信するステップと、
前記構文解析コンポーネントによって、前記複数のブレークポイントのうちの1つの前記選択に基づいて前記複数のブレークポイントから前記ブレークポイントを選択するステップと
を含む、請求項14に記載の方法。 - 音声作動システムにおいてデジタルコンポーネントを制御する方法であって、
データ処理システムによって実行される自然言語プロセッサコンポーネントによって、前記データ処理システムのインタフェースを介して、クライアントコンピューティングデバイスにおいてセンサによって検出される第1の入力オーディオ信号を受信するステップと、
前記自然言語プロセッサコンポーネントによって、前記第1の入力オーディオ信号を構文解析して、前記第1の入力オーディオ信号中にデジタルコンポーネント要求を識別するステップであって、前記デジタルコンポーネント要求が第1のデジタルコンポーネントを示す、ステップと、
前記データ処理システムによって実行されるアノテーションコンポーネントによって、前記第1のデジタルコンポーネント中に認識される発語に少なくとも基づいて前記第1のデジタルコンポーネントの第1のアノテーションのセットを生成するステップと、
前記データ処理システムによって実行される構文解析コンポーネントによって、少なくとも前記第1のアノテーションのセットに基づいて複数のブレークポイントを識別するステップと、
前記自然言語プロセッサコンポーネントによって、前記クライアントコンピューティングデバイスにおいて前記センサによって検出される第2の入力オーディオ信号を受信するステップと、
前記自然言語プロセッサコンポーネントによって、前記第2の入力オーディオ信号を構文解析して、前記第2の入力オーディオ信号中に用語を識別するステップと、
前記構文解析コンポーネントによって、前記用語に基づいて前記複数のブレークポイントからブレークポイントを選択するステップと、
前記構文解析コンポーネントによって前記クライアントコンピューティングデバイスに、前記ブレークポイントに対応する前記第1のデジタルコンポーネントの一部分を送信するステップと
を含む方法。 - 前記データ処理システムによって実行されるコンテンツ選択コンポーネントによって、前記複数のブレークポイントから選択された前記ブレークポイントに基づいて第2のデジタルコンポーネントを選択するステップと、
前記コンテンツ選択コンポーネントによって、前記ブレークポイントに対応する前記第1のデジタルコンポーネントの前記部分と共に前記クライアントコンピューティングデバイスに前記第2のデジタルコンポーネントを送信するステップと
を含む、請求項21に記載の方法。 - 前記アノテーションコンポーネントによって、前記デジタルコンポーネント中の画像に基づいて前記第1のデジタルコンポーネントの第2のアノテーションのセットを生成するステップと、
前記構文解析コンポーネントによって、前記第2のアノテーションのセットに基づいて前記複数のブレークポイントを識別するステップと
を更に含む、請求項21または22に記載の方法。 - 前記アノテーションコンポーネントによって、前記第1のデジタルコンポーネント中のクローズドキャプションデータに基づいて前記デジタルコンポーネントの第2のアノテーションのセットを生成するステップ
を更に含む、請求項21から23のいずれか一項に記載の方法。 - 前記アノテーションコンポーネントによって、第2のクライアントコンピューティングデバイスから前記第1のデジタルコンポーネントの第2のアノテーションのセットを受信するステップと、
前記構文解析コンポーネントによって、前記第2のアノテーションのセットに基づいて前記複数のブレークポイントを識別するステップと、
を更に含む、請求項21から24のいずれか一項に記載の方法。 - 前記構文解析コンポーネントによって、前記デジタルコンポーネント中にシーン遷移を識別するステップと、
前記構文解析コンポーネントによって、少なくとも前記シーン遷移に基づいて前記複数のブレークポイントを識別するステップと
を更に含む、請求項21から25のいずれか一項に記載の方法。 - 前記自然言語プロセッサコンポーネントによって、前記クライアントコンピューティングデバイスにおいて前記センサによって検出される第3の入力オーディオ信号を受信するステップと、
前記自然言語プロセッサコンポーネントによって、前記第3の入力オーディオ信号を構文解析して、前記複数のブレークポイントのうちの第2のブレークポイントの指示を識別するステップと、
前記構文解析コンポーネントによって前記クライアントコンピューティングデバイスに、前記第2のブレークポイントに対応する前記第1のデジタルコンポーネントの第2の部分を送信するステップと
を更に含む、請求項21から26のいずれか一項に記載の方法。 - 前記自然言語プロセッサコンポーネントによって、前記第1の入力オーディオ信号を構文解析して、前記第1の入力オーディオ信号中に第1の意味表現を識別するステップと、
前記構文解析コンポーネントによって、前記第1の意味論的意味に基づいて前記複数のブレークポイントから前記ブレークポイントを選択するステップと
を更に含む、請求項21から27のいずれか一項に記載の方法。 - 前記構文解析コンポーネントによって、前記複数のブレークポイントに基づいて前記第1のデジタルコンポーネントの複数の部分を生成するステップと、
前記構文解析コンポーネントによって、前記第1のデジタルコンポーネントの前記複数の部分の各々に対する意味表現を決定するステップと
を更に含む、請求項21から28のいずれか一項に記載の方法。 - 前記アノテーションコンポーネントによって、前記第1のデジタルコンポーネントの前記複数の部分の各々に対する意味表現に基づいて前記第1のデジタルコンポーネントの第2のアノテーションのセットを生成するステップと、
前記構文解析コンポーネントによって、前記第2のアノテーションのセットに少なくとも基づいて前記複数のブレークポイントを識別するステップと
を更に含む、請求項21から29のいずれか一項に記載の方法。 - 前記複数のブレークポイントの各々が異なるシーンの開始に対応する、請求項21から30のいずれか一項に記載の方法。
- 前記構文解析コンポーネントによって、前記複数のブレークポイントの各々の指示を含む第2のデジタルコンポーネントを生成するステップと、
前記構文解析コンポーネントによって、前記ブレークポイントに対応する前記第1のデジタルコンポーネントの前記部分を伴う提示のために前記クライアントコンピューティングデバイスに前記第2のデジタルコンポーネントを送信するステップと
を更に含む、請求項21から31のいずれか一項に記載の方法。 - 前記自然言語プロセッサコンポーネントによって、前記クライアントコンピューティングデバイスから、前記複数のブレークポイントのうちの1つの選択を含む第3の入力オーディオ信号を受信するステップと、
前記構文解析コンポーネントによって、前記複数のブレークポイントのうちの1つの前記選択に基づいて前記複数のブレークポイントから前記ブレークポイントを選択するステップと
を更に含む、請求項32に記載の方法。 - 音声作動システムにおいてデジタルコンポーネントを制御するシステムであって、
1つまたは複数のプロセッサおよびメモリを備えるデータ処理システムを備え、前記1つまたは複数のプロセッサが、請求項21から33のいずれか一項に記載の方法を実施するように構成される自然言語プロセッサコンポーネント、アノテーションコンポーネントおよび構文解析コンポーネントを実行する、
システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022014861A JP7311653B2 (ja) | 2018-05-07 | 2022-02-02 | ネットワークにおけるデジタルコンテンツの音声ベースの検索 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/973,447 US10733984B2 (en) | 2018-05-07 | 2018-05-07 | Multi-modal interface in a voice-activated network |
US15/973,447 | 2018-05-07 | ||
PCT/US2019/026345 WO2019217018A1 (en) | 2018-05-07 | 2019-04-08 | Voice based search for digital content in a network |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022014861A Division JP7311653B2 (ja) | 2018-05-07 | 2022-02-02 | ネットワークにおけるデジタルコンテンツの音声ベースの検索 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021521525A true JP2021521525A (ja) | 2021-08-26 |
JP7021368B2 JP7021368B2 (ja) | 2022-02-16 |
Family
ID=66248778
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020555514A Active JP7021368B2 (ja) | 2018-05-07 | 2019-04-08 | ネットワークにおけるデジタルコンテンツの音声ベースの検索 |
JP2022014861A Active JP7311653B2 (ja) | 2018-05-07 | 2022-02-02 | ネットワークにおけるデジタルコンテンツの音声ベースの検索 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022014861A Active JP7311653B2 (ja) | 2018-05-07 | 2022-02-02 | ネットワークにおけるデジタルコンテンツの音声ベースの検索 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10733984B2 (ja) |
EP (1) | EP3685280A1 (ja) |
JP (2) | JP7021368B2 (ja) |
KR (2) | KR102433255B1 (ja) |
CN (2) | CN117150079A (ja) |
WO (1) | WO2019217018A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7216175B1 (ja) | 2021-11-22 | 2023-01-31 | 株式会社Albert | 画像解析システム、画像解析方法およびプログラム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885903B1 (en) * | 2018-12-10 | 2021-01-05 | Amazon Technologies, Inc. | Generating transcription information based on context keywords |
CN109951743A (zh) * | 2019-03-29 | 2019-06-28 | 上海哔哩哔哩科技有限公司 | 弹幕信息处理方法、系统及计算机设备 |
US11687588B2 (en) * | 2019-05-21 | 2023-06-27 | Salesforce.Com, Inc. | Weakly supervised natural language localization networks for video proposal prediction based on a text query |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007478A (ja) * | 2000-06-19 | 2002-01-11 | Fuji Xerox System Service Co Ltd | 視聴覚コンテンツ提供装置および方法 |
JP2002049625A (ja) * | 2000-08-04 | 2002-02-15 | Telecommunication Advancement Organization Of Japan | 画像検索装置および画像検索方法 |
JP2006019778A (ja) * | 2004-06-30 | 2006-01-19 | Toshiba Corp | マルチメディアデータ再生装置およびマルチメディアデータ再生方法 |
JP2007013320A (ja) * | 2005-06-28 | 2007-01-18 | Funai Electric Co Ltd | 映像記録装置、コンテンツ記録装置、コンテンツ検索制御方法、および、コンテンツ検索プログラム |
JP2008276340A (ja) * | 2007-04-26 | 2008-11-13 | Hitachi Ltd | 検索装置 |
US20160070962A1 (en) * | 2014-09-08 | 2016-03-10 | Google Inc. | Selecting and Presenting Representative Frames for Video Previews |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6263507B1 (en) * | 1996-12-05 | 2001-07-17 | Interval Research Corporation | Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data |
US6643620B1 (en) | 1999-03-15 | 2003-11-04 | Matsushita Electric Industrial Co., Ltd. | Voice activated controller for recording and retrieving audio/video programs |
US6889191B2 (en) | 2001-12-03 | 2005-05-03 | Scientific-Atlanta, Inc. | Systems and methods for TV navigation with compressed voice-activated commands |
US7996232B2 (en) | 2001-12-03 | 2011-08-09 | Rodriguez Arturo A | Recognition of voice-activated commands |
WO2005076594A1 (en) * | 2004-02-06 | 2005-08-18 | Agency For Science, Technology And Research | Automatic video event detection and indexing |
CN100524457C (zh) * | 2004-05-31 | 2009-08-05 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
NO320758B1 (no) * | 2004-07-23 | 2006-01-23 | Telenor Asa | Anordning og fremgangsmate for gjengivelse av audiovisuelt innhold |
US20080046406A1 (en) | 2006-08-15 | 2008-02-21 | Microsoft Corporation | Audio and video thumbnails |
KR100966651B1 (ko) * | 2008-01-16 | 2010-06-29 | 재단법인서울대학교산학협력재단 | 온톨로지 기반의 시맨틱 어노테이션 시스템 및 그 방법 |
US8487984B2 (en) | 2008-01-25 | 2013-07-16 | At&T Intellectual Property I, L.P. | System and method for digital video retrieval involving speech recognition |
US20090307741A1 (en) * | 2008-06-09 | 2009-12-10 | Echostar Technologies L.L.C. | Methods and apparatus for dividing an audio/video stream into multiple segments using text data |
US20110099195A1 (en) * | 2009-10-22 | 2011-04-28 | Chintamani Patwardhan | Method and Apparatus for Video Search and Delivery |
US9443518B1 (en) * | 2011-08-31 | 2016-09-13 | Google Inc. | Text transcript generation from a communication session |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9304648B2 (en) | 2013-06-26 | 2016-04-05 | Google Inc. | Video segments for a video related to a task |
US20160300020A1 (en) * | 2013-12-03 | 2016-10-13 | 3M Innovative Properties Company | Constraint-based medical coding |
US9305530B1 (en) * | 2014-09-30 | 2016-04-05 | Amazon Technologies, Inc. | Text synchronization with audio |
US11182431B2 (en) * | 2014-10-03 | 2021-11-23 | Disney Enterprises, Inc. | Voice searching metadata through media content |
US9633262B2 (en) * | 2014-11-21 | 2017-04-25 | Microsoft Technology Licensing, Llc | Content interruption point identification accuracy and efficiency |
US10372819B2 (en) * | 2015-03-23 | 2019-08-06 | International Business Machines Corporation | Determining off-topic questions in a question answering system using probabilistic language models |
US20170004139A1 (en) * | 2015-06-30 | 2017-01-05 | Coursera, Inc. | Searchable annotations-augmented on-line course content |
US20170092278A1 (en) | 2015-09-30 | 2017-03-30 | Apple Inc. | Speaker recognition |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US9928840B2 (en) | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10043517B2 (en) * | 2015-12-09 | 2018-08-07 | International Business Machines Corporation | Audio-based event interaction analytics |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
-
2018
- 2018-05-07 US US15/973,447 patent/US10733984B2/en active Active
-
2019
- 2019-04-08 KR KR1020207028940A patent/KR102433255B1/ko active IP Right Grant
- 2019-04-08 KR KR1020227027672A patent/KR102619568B1/ko active IP Right Grant
- 2019-04-08 JP JP2020555514A patent/JP7021368B2/ja active Active
- 2019-04-08 WO PCT/US2019/026345 patent/WO2019217018A1/en unknown
- 2019-04-08 CN CN202311062769.1A patent/CN117150079A/zh active Pending
- 2019-04-08 CN CN201980005354.6A patent/CN111279333B/zh active Active
- 2019-04-08 EP EP19719046.5A patent/EP3685280A1/en active Pending
-
2020
- 2020-07-08 US US16/923,416 patent/US11776536B2/en active Active
-
2022
- 2022-02-02 JP JP2022014861A patent/JP7311653B2/ja active Active
-
2023
- 2023-07-27 US US18/360,367 patent/US20240062749A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007478A (ja) * | 2000-06-19 | 2002-01-11 | Fuji Xerox System Service Co Ltd | 視聴覚コンテンツ提供装置および方法 |
JP2002049625A (ja) * | 2000-08-04 | 2002-02-15 | Telecommunication Advancement Organization Of Japan | 画像検索装置および画像検索方法 |
JP2006019778A (ja) * | 2004-06-30 | 2006-01-19 | Toshiba Corp | マルチメディアデータ再生装置およびマルチメディアデータ再生方法 |
JP2007013320A (ja) * | 2005-06-28 | 2007-01-18 | Funai Electric Co Ltd | 映像記録装置、コンテンツ記録装置、コンテンツ検索制御方法、および、コンテンツ検索プログラム |
JP2008276340A (ja) * | 2007-04-26 | 2008-11-13 | Hitachi Ltd | 検索装置 |
US20160070962A1 (en) * | 2014-09-08 | 2016-03-10 | Google Inc. | Selecting and Presenting Representative Frames for Video Previews |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7216175B1 (ja) | 2021-11-22 | 2023-01-31 | 株式会社Albert | 画像解析システム、画像解析方法およびプログラム |
JP2023076340A (ja) * | 2021-11-22 | 2023-06-01 | 株式会社Albert | 画像解析システム、画像解析方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20220116361A (ko) | 2022-08-22 |
US10733984B2 (en) | 2020-08-04 |
US20240062749A1 (en) | 2024-02-22 |
US20200342856A1 (en) | 2020-10-29 |
EP3685280A1 (en) | 2020-07-29 |
KR102433255B1 (ko) | 2022-08-18 |
KR20200130400A (ko) | 2020-11-18 |
JP7311653B2 (ja) | 2023-07-19 |
US20190341028A1 (en) | 2019-11-07 |
CN117150079A (zh) | 2023-12-01 |
JP7021368B2 (ja) | 2022-02-16 |
US11776536B2 (en) | 2023-10-03 |
KR102619568B1 (ko) | 2023-12-29 |
WO2019217018A1 (en) | 2019-11-14 |
JP2022070886A (ja) | 2022-05-13 |
CN111279333A (zh) | 2020-06-12 |
CN111279333B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7021368B2 (ja) | ネットワークにおけるデジタルコンテンツの音声ベースの検索 | |
US11848009B2 (en) | Adaptive interface in a voice-activated network | |
JP7095114B2 (ja) | ネットワーク化システムでのドメイン固有モデルの生成 | |
US11514907B2 (en) | Activation of remote devices in a networked system | |
US20240185847A1 (en) | Bit Vector-Based Content Matching for Third-Party Digital Assistant Actions | |
EP4143674A1 (en) | Bit vector-based content matching for third-party digital assistant actions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201204 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7021368 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |