JP7311653B2 - ネットワークにおけるデジタルコンテンツの音声ベースの検索 - Google Patents
ネットワークにおけるデジタルコンテンツの音声ベースの検索 Download PDFInfo
- Publication number
- JP7311653B2 JP7311653B2 JP2022014861A JP2022014861A JP7311653B2 JP 7311653 B2 JP7311653 B2 JP 7311653B2 JP 2022014861 A JP2022014861 A JP 2022014861A JP 2022014861 A JP2022014861 A JP 2022014861A JP 7311653 B2 JP7311653 B2 JP 7311653B2
- Authority
- JP
- Japan
- Prior art keywords
- digital component
- data processing
- processing system
- component
- digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 155
- 230000005236 sound signal Effects 0.000 claims description 121
- 238000000034 method Methods 0.000 claims description 86
- 230000007704 transition Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 14
- 238000003058 natural language processing Methods 0.000 description 43
- 230000008569 process Effects 0.000 description 14
- 238000004590 computer program Methods 0.000 description 11
- 230000009471 action Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000000153 supplemental effect Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
- G06F16/745—Browsing; Visualisation therefor the internal structure of a single video sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47217—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Description
本出願は、2018年5月7日に出願した「MULTI-MODAL INTERFACE IN A VOICE-ACTIVATED NETWORK」と題する米国非仮特許出願第15/973,447号の優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。
102 データ処理システム
104 クライアントコンピューティングデバイス
105 ネットワーク
106 デジタルコンポーネントプロバイダデバイス
110 インタフェース
112 リモートデジタルアシスタントコンポーネント
114 自然言語プロセッサコンポーネント
116 構文解析コンポーネント
120 デジタルコンポーネントセレクタ
124 データリポジトリ
126 アノテーション
128 ブレークポイント
130 キャプションデータ
132 コンテンツデータ
134 ローカルデジタルアシスタント
135 アノテーションコンポーネント
138 センサ
140 トランスデューサ
142 オーディオドライバ
144 ディスプレイ
200 デジタルコンポーネント
201(1) 部分
201(2) 部分
201(3) 部分
201(4) 部分
201(5) 部分
202(1) ブレークポイント
202(2) ブレークポイント
202(3) ブレークポイント
202(4) ブレークポイント
403 テキスト
404 デジタルコンポーネント
405 ビデオコンポーネント
406 テキストコンポーネント
407 デジタルコンポーネント
408 追加のデジタルコンポーネント
409 テキスト
500 コンピュータシステム
505 バス
510 プロセッサ
515 メインメモリ
520 ROM
525 ストレージデバイス
530 入力デバイス
535 ディスプレイ
Claims (18)
- 音声作動環境においてデジタルコンポーネントを制御するためのシステムであって、
メモリに結合された1つまたは複数のプロセッサを備えるデータ処理システムを備え、前記データ処理システムが、
クライアントデバイスのセンサを介して取得される第1の入力オーディオ信号を受信することと、
前記第1の入力オーディオ信号を構文解析して、コンテンツに対する要求を識別することと、
前記第1の入力オーディオ信号から識別されたコンテンツに対する前記要求に基づいて、複数のデジタルコンポーネントから、デジタルコンポーネントを識別することであって、前記デジタルコンポーネントが、アノテーションのセットに基づいて生成された複数のブレークポイントにより定められた複数の部分を含む、識別することと、
前記クライアントデバイスの前記センサを介して取得される第2の入力オーディオ信号を受信することであって、前記第2の入力オーディオ信号が、ユーザからの自然言語入力を含む、受信することと、
前記第2の入力オーディオ信号を構文解析し、前記第2の入力オーディオ信号からキーワードを識別することと、
前記第2の入力オーディオ信号から識別された前記キーワードに関連付けられたアノテーションを前記アノテーションのセットから識別することと、
前記デジタルコンポーネントの前記複数の部分から、前記キーワードに関連付けられるとして識別された前記アノテーションに対応する部分を選択することと、
前記複数の部分から選択された前記部分を前記クライアントデバイスに提供することと
を行うためのものである、システム。 - 前記データ処理システムが、
前記デジタルコンポーネントの少なくとも1つのフレーム、および前記デジタルコンポーネントの前記複数の部分に対応する複数の指示の前記クライアントデバイスによる提示の後に、前記第2の入力オーディオ信号を受信し、
前記クライアントデバイスを介して提示するために、前記複数の部分から選択された前記部分を提供する
ためのものである、請求項1に記載のシステム。 - 前記データ処理システムが、
前記デジタルコンポーネントの視聴覚コンテンツまたは前記アノテーションのセットのうちの少なくとも1つに基づいて、前記デジタルコンポーネント内の前記複数の部分を定義する複数のブレークポイントを決定することと、
前記キーワードおよび前記アノテーションのセットに基づいて、前記複数のブレークポイントから1つのブレークポイントを識別することであって、前記1つのブレークポイントが、前記デジタルコンポーネントの前記複数の部分からの前記部分に対応する、識別することと
を行うためのものである、請求項1に記載のシステム。 - 前記データ処理システムが、
前記デジタルコンポーネントの前記複数の部分から選択された前記部分に対応する第2のデジタルコンポーネントを生成し、
前記クライアントデバイスを介して前記部分を提示するために、前記第2のデジタルコンポーネントを提供する
ためのものである、請求項1に記載のシステム。 - 前記データ処理システムが、
前記デジタルコンポーネント内で前記部分が始まる開始時間を前記アノテーションに基づいて識別し、
前記デジタルコンポーネントにおいて前記開始時間から始まる部分を提示するために、前記クライアントデバイスに前記開始時間の指示を提供する
ためのものである、請求項1に記載のシステム。 - 前記データ処理システムが、
前記第2の入力オーディオ信号から識別された前記キーワードが、前記デジタルコンポーネントの前記複数の部分のうちの1つの選択を含まないと決定し、
前記キーワードが前記選択を含まないとの前記決定に応答して、前記キーワードと意味論的に関連付けられる前記アノテーションを識別する
ためのものである、請求項1に記載のシステム。 - 前記データ処理システムが、
前記第2の入力オーディオ信号から識別された前記キーワードが前記デジタルコンポーネントの前記複数の部分の前記部分の選択を含むと決定し、
前記キーワードと関連付けられると決定されるべき前記アノテーションに対して、前記部分を選択する
ためのものである、請求項1に記載のシステム。 - 前記データ処理システムが、
前記デジタルコンポーネントの視聴覚コンテンツにおいて検出された1つまたは複数のシーン遷移に基づいて、前記デジタルコンポーネントから前記複数の部分を識別する
ためのものである、請求項1に記載のシステム。 - 前記データ処理システムが、
前記デジタルコンポーネントにおける視聴覚コンテンツ、または前記デジタルコンポーネントに関連付けられるキャプションデータのセットのうちの少なくとも1つに基づいて、前記デジタルコンポーネントのための前記アノテーションのセットを生成することであって、前記アノテーションのセットの各々が、前記複数の部分に対応する意味表現に対応する、生成すること
を行うためのものである、請求項1に記載のシステム。 - 音声作動環境においてデジタルコンポーネントを制御する方法であって、
データ処理システムによって、クライアントデバイスのセンサを介して取得される第1の入力オーディオ信号を受信するステップと、
前記データ処理システムによって、前記第1の入力オーディオ信号を構文解析して、コンテンツに対する要求を識別するステップと、
前記データ処理システムによって、前記第1の入力オーディオ信号から識別されたコンテンツに対する前記要求に基づいて、複数のデジタルコンポーネントから、デジタルコンポーネントを識別するステップであって、前記デジタルコンポーネントが、アノテーションのセットに基づいて生成された複数のブレークポイントにより定められた複数の部分を含む、ステップ、
前記データ処理システムによって、前記クライアントデバイスの前記センサを介して取得される第2の入力オーディオ信号を受信するステップであって、前記第2の入力オーディオ信号が、ユーザからの自然言語入力を含む、ステップと、
前記データ処理システムによって、前記第2の入力オーディオ信号を構文解析し、前記第2の入力オーディオ信号からキーワードを識別するステップと、
前記データ処理システムによって、前記第2の入力オーディオ信号から識別された前記キーワードに関連付けられたアノテーションを前記アノテーションのセットから識別するステップと、
前記データ処理システムによって、前記デジタルコンポーネントの前記複数の部分から、前記キーワードに関連付けられるとして識別された前記アノテーションに対応する部分を選択するステップと、
前記データ処理システムによって、前記複数の部分から選択された前記部分を前記クライアントデバイスに提供するステップと
を含む、方法。 - 前記データ処理システムによって、前記デジタルコンポーネントの少なくとも1つのフレーム、および前記デジタルコンポーネントの前記複数の部分に対応する複数の指示の前記クライアントデバイスによる提示の後に、前記第2の入力オーディオ信号を受信するステップと、
前記データ処理システムによって、前記クライアントデバイスを介して提示するために、前記複数の部分から選択された前記部分を提供するステップと
を含む、請求項10に記載の方法。 - 前記データ処理システムによって、前記デジタルコンポーネントの視聴覚コンテンツまたは前記アノテーションのセットのうちの少なくとも1つに基づいて、前記デジタルコンポーネント内の前記複数の部分を定義する複数のブレークポイントを決定するステップと、
前記データ処理システムによって、前記キーワードおよび前記アノテーションのセットに基づいて、前記複数のブレークポイントから1つのブレークポイントを識別するステップであって、前記1つのブレークポイントが、前記デジタルコンポーネントの前記複数の部分からの前記部分に対応する、識別するステップと
を含む、請求項10に記載の方法。 - 前記データ処理システムによって、前記デジタルコンポーネントの前記複数の部分から選択された前記部分に対応する第2のデジタルコンポーネントを生成するステップと、
前記データ処理システムによって、前記クライアントデバイスを介して前記部分を提示するために、前記第2のデジタルコンポーネントを提供するステップと
を含む、請求項10に記載の方法。 - 前記データ処理システムによって、前記デジタルコンポーネント内で前記部分が始まる開始時間を前記アノテーションに基づいて識別するステップと、
前記データ処理システムによって、前記デジタルコンポーネントにおいて前記開始時間から始まる部分を提示するために、前記クライアントデバイスに前記開始時間の指示を提供するステップと
を含む、請求項10に記載の方法。 - 前記データ処理システムによって、前記第2の入力オーディオ信号から識別された前記キーワードが、前記デジタルコンポーネントの前記複数の部分のうちの1つの選択を含まないと決定するステップと、
前記データ処理システムによって、前記キーワードが前記選択を含まないとの前記決定に応答して、前記キーワードと意味論的に関連付けられる前記アノテーションを識別するステップと
を含む、請求項10に記載の方法。 - 前記データ処理システムによって、前記第2の入力オーディオ信号から識別された前記キーワードが前記デジタルコンポーネントの前記複数の部分の前記部分の選択を含むと決定するステップと、
前記キーワードと関連付けられると決定されるべき前記アノテーションに対して、前記部分を選択するステップと
を含む、請求項10に記載の方法。 - 前記データ処理システムによって、前記デジタルコンポーネントの視聴覚コンテンツにおいて検出された1つまたは複数のシーン遷移に基づいて、前記デジタルコンポーネントから前記複数の部分を識別する、請求項10に記載の方法。
- 前記データ処理システムによって、前記デジタルコンポーネントにおける視聴覚コンテンツ、または前記デジタルコンポーネントに関連付けられるキャプションデータのセットのうちの少なくとも1つに基づいて、前記デジタルコンポーネントのための前記アノテーションのセットを生成するステップであって、前記アノテーションのセットの各々が、前記複数の部分に対応する意味表現に対応する、生成するステップ
を含む、請求項10に記載の方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/973,447 | 2018-05-07 | ||
US15/973,447 US10733984B2 (en) | 2018-05-07 | 2018-05-07 | Multi-modal interface in a voice-activated network |
PCT/US2019/026345 WO2019217018A1 (en) | 2018-05-07 | 2019-04-08 | Voice based search for digital content in a network |
JP2020555514A JP7021368B2 (ja) | 2018-05-07 | 2019-04-08 | ネットワークにおけるデジタルコンテンツの音声ベースの検索 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020555514A Division JP7021368B2 (ja) | 2018-05-07 | 2019-04-08 | ネットワークにおけるデジタルコンテンツの音声ベースの検索 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022070886A JP2022070886A (ja) | 2022-05-13 |
JP7311653B2 true JP7311653B2 (ja) | 2023-07-19 |
Family
ID=66248778
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020555514A Active JP7021368B2 (ja) | 2018-05-07 | 2019-04-08 | ネットワークにおけるデジタルコンテンツの音声ベースの検索 |
JP2022014861A Active JP7311653B2 (ja) | 2018-05-07 | 2022-02-02 | ネットワークにおけるデジタルコンテンツの音声ベースの検索 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020555514A Active JP7021368B2 (ja) | 2018-05-07 | 2019-04-08 | ネットワークにおけるデジタルコンテンツの音声ベースの検索 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10733984B2 (ja) |
EP (1) | EP3685280A1 (ja) |
JP (2) | JP7021368B2 (ja) |
KR (2) | KR102433255B1 (ja) |
CN (2) | CN117150079A (ja) |
WO (1) | WO2019217018A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885903B1 (en) * | 2018-12-10 | 2021-01-05 | Amazon Technologies, Inc. | Generating transcription information based on context keywords |
CN109951743A (zh) * | 2019-03-29 | 2019-06-28 | 上海哔哩哔哩科技有限公司 | 弹幕信息处理方法、系统及计算机设备 |
US11687588B2 (en) * | 2019-05-21 | 2023-06-27 | Salesforce.Com, Inc. | Weakly supervised natural language localization networks for video proposal prediction based on a text query |
JP7216175B1 (ja) | 2021-11-22 | 2023-01-31 | 株式会社Albert | 画像解析システム、画像解析方法およびプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007478A (ja) | 2000-06-19 | 2002-01-11 | Fuji Xerox System Service Co Ltd | 視聴覚コンテンツ提供装置および方法 |
JP2002049625A (ja) | 2000-08-04 | 2002-02-15 | Telecommunication Advancement Organization Of Japan | 画像検索装置および画像検索方法 |
JP2006019778A (ja) | 2004-06-30 | 2006-01-19 | Toshiba Corp | マルチメディアデータ再生装置およびマルチメディアデータ再生方法 |
JP2007013320A (ja) | 2005-06-28 | 2007-01-18 | Funai Electric Co Ltd | 映像記録装置、コンテンツ記録装置、コンテンツ検索制御方法、および、コンテンツ検索プログラム |
JP2008276340A (ja) | 2007-04-26 | 2008-11-13 | Hitachi Ltd | 検索装置 |
US20160070962A1 (en) | 2014-09-08 | 2016-03-10 | Google Inc. | Selecting and Presenting Representative Frames for Video Previews |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6263507B1 (en) * | 1996-12-05 | 2001-07-17 | Interval Research Corporation | Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data |
US6643620B1 (en) | 1999-03-15 | 2003-11-04 | Matsushita Electric Industrial Co., Ltd. | Voice activated controller for recording and retrieving audio/video programs |
US7996232B2 (en) | 2001-12-03 | 2011-08-09 | Rodriguez Arturo A | Recognition of voice-activated commands |
US6889191B2 (en) | 2001-12-03 | 2005-05-03 | Scientific-Atlanta, Inc. | Systems and methods for TV navigation with compressed voice-activated commands |
US20080193016A1 (en) * | 2004-02-06 | 2008-08-14 | Agency For Science, Technology And Research | Automatic Video Event Detection and Indexing |
CN100524457C (zh) * | 2004-05-31 | 2009-08-05 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
NO320758B1 (no) * | 2004-07-23 | 2006-01-23 | Telenor Asa | Anordning og fremgangsmate for gjengivelse av audiovisuelt innhold |
US20080046406A1 (en) | 2006-08-15 | 2008-02-21 | Microsoft Corporation | Audio and video thumbnails |
KR100966651B1 (ko) * | 2008-01-16 | 2010-06-29 | 재단법인서울대학교산학협력재단 | 온톨로지 기반의 시맨틱 어노테이션 시스템 및 그 방법 |
US8487984B2 (en) | 2008-01-25 | 2013-07-16 | At&T Intellectual Property I, L.P. | System and method for digital video retrieval involving speech recognition |
US20090307741A1 (en) * | 2008-06-09 | 2009-12-10 | Echostar Technologies L.L.C. | Methods and apparatus for dividing an audio/video stream into multiple segments using text data |
WO2011050280A2 (en) * | 2009-10-22 | 2011-04-28 | Chintamani Patwardhan | Method and apparatus for video search and delivery |
US9443518B1 (en) * | 2011-08-31 | 2016-09-13 | Google Inc. | Text transcript generation from a communication session |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US9304648B2 (en) | 2013-06-26 | 2016-04-05 | Google Inc. | Video segments for a video related to a task |
US20160300020A1 (en) * | 2013-12-03 | 2016-10-13 | 3M Innovative Properties Company | Constraint-based medical coding |
US9305530B1 (en) * | 2014-09-30 | 2016-04-05 | Amazon Technologies, Inc. | Text synchronization with audio |
US11182431B2 (en) * | 2014-10-03 | 2021-11-23 | Disney Enterprises, Inc. | Voice searching metadata through media content |
US9633262B2 (en) * | 2014-11-21 | 2017-04-25 | Microsoft Technology Licensing, Llc | Content interruption point identification accuracy and efficiency |
US10372819B2 (en) * | 2015-03-23 | 2019-08-06 | International Business Machines Corporation | Determining off-topic questions in a question answering system using probabilistic language models |
US20170004139A1 (en) * | 2015-06-30 | 2017-01-05 | Coursera, Inc. | Searchable annotations-augmented on-line course content |
US20170092278A1 (en) | 2015-09-30 | 2017-03-30 | Apple Inc. | Speaker recognition |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US9928840B2 (en) | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10043517B2 (en) * | 2015-12-09 | 2018-08-07 | International Business Machines Corporation | Audio-based event interaction analytics |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
-
2018
- 2018-05-07 US US15/973,447 patent/US10733984B2/en active Active
-
2019
- 2019-04-08 WO PCT/US2019/026345 patent/WO2019217018A1/en unknown
- 2019-04-08 KR KR1020207028940A patent/KR102433255B1/ko active IP Right Grant
- 2019-04-08 CN CN202311062769.1A patent/CN117150079A/zh active Pending
- 2019-04-08 CN CN201980005354.6A patent/CN111279333B/zh active Active
- 2019-04-08 KR KR1020227027672A patent/KR102619568B1/ko active IP Right Grant
- 2019-04-08 EP EP19719046.5A patent/EP3685280A1/en active Pending
- 2019-04-08 JP JP2020555514A patent/JP7021368B2/ja active Active
-
2020
- 2020-07-08 US US16/923,416 patent/US11776536B2/en active Active
-
2022
- 2022-02-02 JP JP2022014861A patent/JP7311653B2/ja active Active
-
2023
- 2023-07-27 US US18/360,367 patent/US20240062749A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007478A (ja) | 2000-06-19 | 2002-01-11 | Fuji Xerox System Service Co Ltd | 視聴覚コンテンツ提供装置および方法 |
JP2002049625A (ja) | 2000-08-04 | 2002-02-15 | Telecommunication Advancement Organization Of Japan | 画像検索装置および画像検索方法 |
JP2006019778A (ja) | 2004-06-30 | 2006-01-19 | Toshiba Corp | マルチメディアデータ再生装置およびマルチメディアデータ再生方法 |
JP2007013320A (ja) | 2005-06-28 | 2007-01-18 | Funai Electric Co Ltd | 映像記録装置、コンテンツ記録装置、コンテンツ検索制御方法、および、コンテンツ検索プログラム |
JP2008276340A (ja) | 2007-04-26 | 2008-11-13 | Hitachi Ltd | 検索装置 |
US20160070962A1 (en) | 2014-09-08 | 2016-03-10 | Google Inc. | Selecting and Presenting Representative Frames for Video Previews |
Non-Patent Citations (1)
Title |
---|
伊福部 達 外,進化するヒトと機械の音声コミュニケーション ,初版,日本,株式会社エヌ・ティー・エス,2015年09月10日,p. 221 |
Also Published As
Publication number | Publication date |
---|---|
US20200342856A1 (en) | 2020-10-29 |
KR20220116361A (ko) | 2022-08-22 |
KR20200130400A (ko) | 2020-11-18 |
EP3685280A1 (en) | 2020-07-29 |
CN117150079A (zh) | 2023-12-01 |
JP2021521525A (ja) | 2021-08-26 |
US10733984B2 (en) | 2020-08-04 |
WO2019217018A1 (en) | 2019-11-14 |
JP2022070886A (ja) | 2022-05-13 |
US11776536B2 (en) | 2023-10-03 |
US20240062749A1 (en) | 2024-02-22 |
JP7021368B2 (ja) | 2022-02-16 |
KR102433255B1 (ko) | 2022-08-18 |
CN111279333B (zh) | 2023-09-05 |
CN111279333A (zh) | 2020-06-12 |
US20190341028A1 (en) | 2019-11-07 |
KR102619568B1 (ko) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7311653B2 (ja) | ネットワークにおけるデジタルコンテンツの音声ベースの検索 | |
JP7095114B2 (ja) | ネットワーク化システムでのドメイン固有モデルの生成 | |
US11848009B2 (en) | Adaptive interface in a voice-activated network | |
US11514907B2 (en) | Activation of remote devices in a networked system | |
EP4143674A1 (en) | Bit vector-based content matching for third-party digital assistant actions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220303 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230612 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230706 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7311653 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |