JP2019537307A - キャプションテキストにおける間違いを訂正するためのシステムおよび方法 - Google Patents
キャプションテキストにおける間違いを訂正するためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2019537307A JP2019537307A JP2019517092A JP2019517092A JP2019537307A JP 2019537307 A JP2019537307 A JP 2019537307A JP 2019517092 A JP2019517092 A JP 2019517092A JP 2019517092 A JP2019517092 A JP 2019517092A JP 2019537307 A JP2019537307 A JP 2019537307A
- Authority
- JP
- Japan
- Prior art keywords
- term
- text segment
- text
- knowledge graph
- identifying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000012937 correction Methods 0.000 claims abstract description 281
- 238000012545 processing Methods 0.000 claims description 22
- 238000003058 natural language processing Methods 0.000 claims description 17
- 238000004891 communication Methods 0.000 description 46
- 239000000725 suspension Substances 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000013459 approach Methods 0.000 description 12
- 230000002452 interceptive effect Effects 0.000 description 11
- 230000009471 action Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 238000012015 optical character recognition Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000003825 pressing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- OVSKIKFHRZPJSS-UHFFFAOYSA-N 2,4-D Chemical compound OC(=O)COC1=CC=C(Cl)C=C1Cl OVSKIKFHRZPJSS-UHFFFAOYSA-N 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 244000187656 Eucalyptus cornuta Species 0.000 description 1
- 229910021417 amorphous silicon Inorganic materials 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007177 brain activity Effects 0.000 description 1
- 239000002041 carbon nanotube Substances 0.000 description 1
- 229910021393 carbon nanotube Inorganic materials 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910021420 polycrystalline silicon Inorganic materials 0.000 description 1
- 229920005591 polysilicon Polymers 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23424—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234336—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Studio Devices (AREA)
Abstract
Description
本願明細書は、例えば、以下の項目も提供する。
(項目1)
メディアアセットのための画面上のキャプションテキストの中の誤った用語を訂正するための方法であって、
前記画面上のキャプションテキストのテキストセグメントの中の前記誤った用語を識別することと、
前記テキストセグメントに対応する前記メディアアセットの1つ以上のビデオフレームを識別することと、
前記1つ以上のビデオフレームから、前記誤った用語に関連する文脈用語を識別することと、
ナレッジグラフにアクセスし、前記文脈用語および前記テキストセグメントの一部に基づいて候補訂正を識別することと、
前記誤った用語を前記候補訂正と置換することと
を含む、方法。
(項目2)
メディアアセットの画面上のキャプションテキストの中の誤った用語を訂正するための方法であって、
前記メディアアセットのオーディオストリームを分析し、前記画面上のキャプションテキストの第1のテキストセグメントを決定することと、
前記画面上のキャプションテキストの第1のテキストセグメントの中の誤った用語を識別することと、
前記第1のテキストセグメントに対応する前記メディアアセットのビデオストリームから、1つ以上のビデオフレームを抽出することと、
前記1つ以上のビデオフレームのうちの第1のビデオフレームを分析し、前記誤った用語と関連付けられる文脈用語を決定することと、
ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記誤った用語のための候補訂正を識別することと、
クローズドキャプションテキストの前記第1のテキストセグメントの中の前記誤った用語を前記候補訂正と置換することと
を含む、方法。
(項目3)
前記第1のテキストセグメントの中の前記誤った用語を識別することはさらに、前記第1のテキストセグメントに自然言語処理を実施し、複数の文法規則に対して前記第1のテキストセグメントを比較することを含む、項目2に記載の方法。
(項目4)
前記画面上のキャプションテキストの前記第1のテキストセグメントは、タイムスタンプ付きであり、前記第1のビデオフレームは、前記タイムスタンプ付きの第1のテキストセグメントの中の前記誤った用語の位置に対応する、前記メディアアセットの位置において抽出される、項目2に記載の方法。
(項目5)
前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別することはさらに、
前記第1のテキストセグメントの一部からキーワードを抽出することと、
前記文脈用語および前記キーワードに対応する節点に関して、前記ナレッジグラフの中で検索することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに関して、前記節点を分析することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに基づいて、少なくとも1つの他の節点を決定することであって、前記少なくとも1つの他の節点は、前記候補訂正に対応する、ことと
を含む、項目2に記載の方法。
(項目6)
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を識別することと、
前記第2のテキストセグメントに対応する第2のビデオフレームを分析し、前記誤った用語と関連付けられる第2の文脈用語を決定することと、
前記ナレッジグラフにアクセスし、前記第1の文脈用語、前記第2の文脈用語、前記第1のテキストセグメントの一部、および前記第2のテキストセグメントの一部に基づいて、更新された候補訂正を識別することと、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を前記更新された候補訂正と置換することと
をさらに含む、項目2に記載の方法。
(項目7)
前記第1のテキストセグメントの中の前記候補訂正を前記更新された候補訂正と置換することをさらに含む、項目6に記載の方法。
(項目8)
前記ナレッジグラフにアクセスし、前記誤った用語のための前記候補訂正を識別することはさらに、
前記ナレッジグラフから、前記誤った用語のための複数の潜在的訂正を決定することと、
前記決定に基づいて、加重を前記複数の潜在的訂正のうちの各潜在的訂正に割り当てることと、
前記候補訂正として、最高加重と関連付けられる潜在的訂正を識別することと
を含む、項目2に記載の方法。
(項目9)
前記複数の潜在的訂正のうちのより最近の潜在的訂正は、より高い加重を割り当てられる、項目8に記載の方法。
(項目10)
音声アルゴリズムに基づいて、潜在的候補訂正と前記誤った用語との間の音声類似性スコアを決定することと、
より高い音声類似性スコアを伴う前記潜在的候補訂正により高い加重を割り当てることと
をさらに含む、項目8に記載の方法。
(項目11)
前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別することはさらに、前記ナレッジグラフの既存の節点を更新することを含む、項目2に記載の方法。
(項目12)
メディアアセットの画面上のキャプションテキストの中の誤った用語を訂正するためのシステムであって、
ナレッジグラフを記憶するメモリと、
制御回路であって、
前記メディアアセットのオーディオストリームを分析し、前記画面上のキャプションテキストの第1のテキストセグメントを決定することと、
前記画面上のキャプションテキストの第1のテキストセグメントの中の誤った用語を識別することと、
前記第1のテキストセグメントに対応する前記メディアアセットのビデオストリームから、1つ以上のビデオフレームを抽出することと、
前記1つ以上のビデオフレームのうちの第1のビデオフレームを分析し、前記誤った用語と関連付けられる文脈用語を決定することと、
ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記誤った用語のための候補訂正を識別することと、
クローズドキャプションテキストの前記第1のテキストセグメントの中の前記誤った用語を前記候補訂正と置換することと
を行うように構成される、制御回路と
を備える、システム。
(項目13)
前記第1のテキストセグメントの中の前記誤った用語を識別するようにさらに構成される、前記制御回路はさらに、前記第1のテキストセグメントへの処理によって自然言語を実施し、複数の文法規則に対して前記第1のテキストセグメントを比較することを含む、項目12に記載のシステム。
(項目14)
前記画面上のキャプションテキストの前記第1のテキストセグメントは、タイムスタンプ付きであり、前記第1のビデオフレームは、前記タイムスタンプ付きの第1のテキストセグメントの中の前記誤った用語の位置に対応する、前記メディアアセットの位置において抽出される、項目12に記載のシステム。
(項目15)
前記制御回路はさらに、
前記第1のテキストセグメントの一部からキーワードを抽出することと、
前記文脈用語および前記キーワードに対応する節点に関して、前記ナレッジグラフの中で検索することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに関して、前記節点を分析することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに基づいて、少なくとも1つの他の節点を決定することであって、前記少なくとも1つの他の節点は、前記候補訂正に対応する、ことと
によって、前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するように構成される、項目12に記載のシステム。
(項目16)
前記制御回路はさらに、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を識別することと、
前記第2のテキストセグメントに対応する第2のビデオフレームを分析し、前記誤った用語と関連付けられる第2の文脈用語を決定することと、
前記ナレッジグラフにアクセスし、前記第1の文脈用語、前記第2の文脈用語、前記第1のテキストセグメントの一部、および前記第2のテキストセグメントの一部に基づいて、更新された候補訂正を識別することと、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を前記更新された候補訂正と置換することと
を行うように構成される、項目12に記載のシステム。
(項目17)
前記制御回路はさらに、前記第1のテキストセグメントの中の前記候補訂正を前記更新された候補訂正と置換するように構成される、項目16に記載のシステム。
(項目18)
前記制御回路はさらに、
前記ナレッジグラフから、前記誤った用語のための複数の潜在的訂正を決定することと、
前記決定に基づいて、加重を前記複数の潜在的訂正のうちの各潜在的訂正に割り当てることと、
前記候補訂正として、最高加重と関連付けられる潜在的訂正を識別することと
によって、前記ナレッジグラフにアクセスし、前記誤った用語のための前記候補訂正を識別するように構成される、項目12に記載のシステム。
(項目19)
前記複数の潜在的訂正のうちのより最近の潜在的訂正は、より高い加重を割り当てられる、項目18に記載のシステム。
(項目20)
前記制御回路はさらに、
音声アルゴリズムに基づいて、潜在的候補訂正と前記誤った用語との間の音声類似性スコアを決定することと、
より高い音声類似性スコアを伴う前記潜在的候補訂正により高い加重を割り当てることと
を行うように構成される、項目18に記載のシステム。
(項目21)
前記制御回路はさらに、前記ナレッジグラフの既存の節点を更新することによって、前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するように構成される、項目12に記載のシステム。
(項目22)
メディアアセットの画面上のキャプションテキストの中の誤った用語を訂正するための装置であって、
前記メディアアセットのオーディオストリームを分析し、前記画面上のキャプションテキストの第1のテキストセグメントを決定するための手段と、
前記画面上のキャプションテキストの第1のテキストセグメントの中の誤った用語を識別するための手段と、
前記第1のテキストセグメントに対応する前記メディアアセットのビデオストリームから、1つ以上のビデオフレームを抽出するための手段と、
前記1つ以上のビデオフレームのうちの第1のビデオフレームを分析し、前記誤った用語と関連付けられる文脈用語を決定するための手段と、
ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記誤った用語のための候補訂正を識別するための手段と、
クローズドキャプションテキストの前記第1のテキストセグメントの中の前記誤った用語を前記候補訂正と置換するための手段と
を備える、装置。
(項目23)
前記第1のテキストセグメントの中の前記誤った用語を識別するための前記手段はさらに、前記第1のテキストセグメントに自然言語処理を実施し、複数の文法規則に対して前記第1のテキストセグメントを比較するための手段を備える、項目22に記載の装置。
(項目24)
前記画面上のキャプションテキストの前記第1のテキストセグメントは、タイムスタンプ付きであり、前記第1のビデオフレームは、前記タイムスタンプ付きの第1のテキストセグメントの中の前記誤った用語の位置に対応する、前記メディアアセットの位置において抽出される、項目22に記載の装置。
(項目25)
前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するための前記手段はさらに、
前記第1のテキストセグメントの一部からキーワードを抽出するための手段と、
前記文脈用語および前記キーワードに対応する節点に関して、前記ナレッジグラフの中で検索するための手段と、
前記文脈用語および前記キーワードと関連付けられるプロパティに関して、前記節点を分析するための手段と、
前記文脈用語および前記キーワードと関連付けられるプロパティに基づいて、少なくとも1つの他の節点を決定するための手段であって、前記少なくとも1つの他の節点は、前記候補訂正に対応する、手段と
を備える、項目22に記載の装置。
(項目26)
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を識別するための手段と、
前記第2のテキストセグメントに対応する第2のビデオフレームを分析し、前記誤った用語と関連付けられる第2の文脈用語を決定するための手段と、
前記ナレッジグラフにアクセスし、前記第1の文脈用語、前記第2の文脈用語、前記第1のテキストセグメントの一部、および前記第2のテキストセグメントの一部に基づいて、更新された候補訂正を識別するための手段と、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を前記更新された候補訂正と置換するための手段と
をさらに備える、項目22に記載の装置。
(項目27)
前記第1のテキストセグメントの中の前記候補訂正を前記更新された候補訂正と置換するための手段をさらに備える、項目26に記載の装置。
(項目28)
前記ナレッジグラフにアクセスし、前記誤った用語のための前記候補訂正を識別するための前記手段はさらに、
前記ナレッジグラフから、前記誤った用語のための複数の潜在的訂正を決定するための手段と、
前記決定に基づいて、加重を前記複数の潜在的訂正のうちの各潜在的訂正に割り当てるための手段と、
前記候補訂正として、最高加重と関連付けられる潜在的訂正を識別するための手段と
を備える、項目22に記載の装置。
(項目29)
前記複数の潜在的訂正のうちのより最近の潜在的訂正は、より高い加重を割り当てられる、項目28に記載の装置。
(項目30)
音声アルゴリズムに基づいて、潜在的候補訂正と前記誤った用語との間の音声類似性スコアを決定するための手段と、
より高い音声類似性スコアを伴う前記潜在的候補訂正により高い加重を割り当てるための手段と
をさらに備える、項目28に記載の装置。
(項目31)
前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するための前記手段はさらに、前記ナレッジグラフの既存の節点を更新するための手段を備える、項目22に記載の装置。
(項目32)
命令を伴うメモリを備える非一過性の機械可読媒体であって、前記命令は、メディアアセットの画面上のキャプションテキストの中の誤った用語を訂正するために前記メモリ上にエンコードされており、前記非一過性の機械可読媒体は、
前記メディアアセットのオーディオストリームを分析し、前記画面上のキャプションテキストの第1のテキストセグメントを決定するための命令と、
前記画面上のキャプションテキストの第1のテキストセグメントの中の誤った用語を識別するための命令と、
前記第1のテキストセグメントに対応する前記メディアアセットのビデオストリームから、1つ以上のビデオフレームを抽出するための命令と、
前記1つ以上のビデオフレームのうちの第1のビデオフレームを分析し、前記誤った用語と関連付けられる文脈用語を決定するための命令と、
ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記誤った用語のための候補訂正を識別するための命令と、
クローズドキャプションテキストの前記第1のテキストセグメントの中の前記誤った用語を前記候補訂正と置換するための命令と
を備える、非一過性の機械可読媒体。
(項目33)
前記第1のテキストセグメントの中の前記誤った用語を識別するための前記命令はさらに、前記第1のテキストセグメントに自然言語処理を実施し、複数の文法規則に対して前記第1のテキストセグメントを比較するための命令を備える、項目32に記載の非一過性の機械可読媒体。
(項目34)
前記画面上のキャプションテキストの前記第1のテキストセグメントは、タイムスタンプ付きであり、前記第1のビデオフレームは、前記タイムスタンプ付きの第1のテキストセグメントの中の前記誤った用語の位置に対応する、前記メディアアセットの位置において抽出される、項目32に記載の非一過性の機械可読媒体。
(項目35)
前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するための前記命令はさらに、
前記第1のテキストセグメントの一部からキーワードを抽出するための命令と、
前記文脈用語および前記キーワードに対応する節点に関して、前記ナレッジグラフの中で検索するための命令と、
前記文脈用語および前記キーワードと関連付けられるプロパティに関して、前記節点を分析するための命令と、
前記文脈用語および前記キーワードと関連付けられるプロパティに基づいて、少なくとも1つの他の節点を決定するための命令であって、前記少なくとも1つの他の節点は、前記候補訂正に対応する、命令と
を備える、項目32に記載の非一過性の機械可読媒体。
(項目36)
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を識別するための命令と、
前記第2のテキストセグメントに対応する第2のビデオフレームを分析し、前記誤った用語と関連付けられる第2の文脈用語を決定するための命令と、
前記ナレッジグラフにアクセスし、前記第1の文脈用語、前記第2の文脈用語、前記第1のテキストセグメントの一部、および前記第2のテキストセグメントの一部に基づいて、更新された候補訂正を識別するための命令と、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を前記更新された候補訂正と置換するための命令と
をさらに備える、項目32に記載の非一過性の機械可読媒体。
(項目37)
前記第1のテキストセグメントの中の前記候補訂正を前記更新された候補訂正と置換するための命令をさらに備える、項目36に記載の非一過性の機械可読媒体。
(項目38)
前記ナレッジグラフにアクセスし、前記誤った用語のための前記候補訂正を識別するための前記命令はさらに、
前記ナレッジグラフから、前記誤った用語のための複数の潜在的訂正を決定するための命令と、
前記決定に基づいて、加重を前記複数の潜在的訂正のうちの各潜在的訂正に割り当てるための命令と、
前記候補訂正として、最高加重と関連付けられる潜在的訂正を識別するための命令と
を備える、項目32に記載の非一過性の機械可読媒体。
(項目39)
前記複数の潜在的訂正のうちのより最近の潜在的訂正は、より高い加重を割り当てられる、項目38に記載の非一過性の機械可読媒体。
(項目40)
音声アルゴリズムに基づいて、潜在的候補訂正と前記誤った用語との間の音声類似性スコアを決定するための命令と、
より高い音声類似性スコアを伴う前記潜在的候補訂正により高い加重を割り当てるための命令と
をさらに備える、項目38に記載の非一過性の機械可読媒体。
(項目41)
前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するための前記命令はさらに、前記ナレッジグラフの既存の節点を更新するための命令を備える、項目32に記載の非一過性の機械可読媒体。
(項目42)
メディアアセットの画面上のキャプションテキストの中の誤った用語を訂正するための方法であって、
前記メディアアセットのオーディオストリームを分析し、前記画面上のキャプションテキストの第1のテキストセグメントを決定することと、
前記画面上のキャプションテキストの第1のテキストセグメントの中の誤った用語を識別することと、
前記第1のテキストセグメントに対応する前記メディアアセットのビデオストリームから、1つ以上のビデオフレームを抽出することと、
前記1つ以上のビデオフレームのうちの第1のビデオフレームを分析し、前記誤った用語と関連付けられる文脈用語を決定することと、
ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記誤った用語のための候補訂正を識別することと、
クローズドキャプションテキストの前記第1のテキストセグメントの中の前記誤った用語を前記候補訂正と置換することと
を含む、方法。
(項目43)
前記第1のテキストセグメントの中の前記誤った用語を識別することはさらに、前記第1のテキストセグメントに自然言語処理を実施し、複数の文法規則に対して前記第1のテキストセグメントを比較することを含む、項目42に記載の方法。
(項目44)
前記画面上のキャプションテキストの前記第1のテキストセグメントは、タイムスタンプ付きであり、前記第1のビデオフレームは、前記タイムスタンプ付きの第1のテキストセグメントの中の前記誤った用語の位置に対応する、前記メディアアセットの位置において抽出される、項目42および43のいずれか1項に記載の方法。
(項目45)
前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別することはさらに、
前記第1のテキストセグメントの一部からキーワードを抽出することと、
前記文脈用語および前記キーワードに対応する節点に関して、前記ナレッジグラフの中で検索することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに関して、前記節点を分析することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに基づいて、少なくとも1つの他の節点を決定することであって、前記少なくとも1つの他の節点は、前記候補訂正に対応する、ことと
を含む、項目42−44のいずれか1項に記載の方法。
(項目46)
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を識別することと、
前記第2のテキストセグメントに対応する第2のビデオフレームを分析し、前記誤った用語と関連付けられる第2の文脈用語を決定することと、
前記ナレッジグラフにアクセスし、前記第1の文脈用語、前記第2の文脈用語、前記第1のテキストセグメントの一部、および前記第2のテキストセグメントの一部に基づいて、更新された候補訂正を識別することと、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を前記更新された候補訂正と置換することと
をさらに含む、項目42−45のいずれか1項に記載の方法。
(項目47)
前記第1のテキストセグメントの中の前記候補訂正を前記更新された候補訂正と置換することをさらに含む、項目46に記載の方法。
(項目48)
前記ナレッジグラフにアクセスし、前記誤った用語のための前記候補訂正を識別することはさらに、
前記ナレッジグラフから、前記誤った用語のための複数の潜在的訂正を決定することと、
前記決定に基づいて、加重を前記複数の潜在的訂正のうちの各潜在的訂正に割り当てることと、
前記候補訂正として、最高加重と関連付けられる潜在的訂正を識別することと
を含む、項目42−47のいずれか1項に記載の方法。
(項目49)
前記複数の潜在的訂正のうちのより最近の潜在的訂正は、より高い加重を割り当てられる、項目48に記載の方法。
(項目50)
音声アルゴリズムに基づいて、潜在的候補訂正と前記誤った用語との間の音声類似性スコアを決定することと、
より高い音声類似性スコアを伴う前記潜在的候補訂正により高い加重を割り当てることと
をさらに含む、項目48に記載の方法。
(項目51)
前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別することはさらに、前記ナレッジグラフの既存の節点を更新することを含む、項目42−50のいずれか1項に記載の方法。
Claims (51)
- メディアアセットのための画面上のキャプションテキストの中の誤った用語を訂正するための方法であって、
前記画面上のキャプションテキストのテキストセグメントの中の前記誤った用語を識別することと、
前記テキストセグメントに対応する前記メディアアセットの1つ以上のビデオフレームを識別することと、
前記1つ以上のビデオフレームから、前記誤った用語に関連する文脈用語を識別することと、
ナレッジグラフにアクセスし、前記文脈用語および前記テキストセグメントの一部に基づいて候補訂正を識別することと、
前記誤った用語を前記候補訂正と置換することと
を含む、方法。 - メディアアセットの画面上のキャプションテキストの中の誤った用語を訂正するための方法であって、
前記メディアアセットのオーディオストリームを分析し、前記画面上のキャプションテキストの第1のテキストセグメントを決定することと、
前記画面上のキャプションテキストの第1のテキストセグメントの中の誤った用語を識別することと、
前記第1のテキストセグメントに対応する前記メディアアセットのビデオストリームから、1つ以上のビデオフレームを抽出することと、
前記1つ以上のビデオフレームのうちの第1のビデオフレームを分析し、前記誤った用語と関連付けられる文脈用語を決定することと、
ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記誤った用語のための候補訂正を識別することと、
クローズドキャプションテキストの前記第1のテキストセグメントの中の前記誤った用語を前記候補訂正と置換することと
を含む、方法。 - 前記第1のテキストセグメントの中の前記誤った用語を識別することはさらに、前記第1のテキストセグメントに自然言語処理を実施し、複数の文法規則に対して前記第1のテキストセグメントを比較することを含む、請求項2に記載の方法。
- 前記画面上のキャプションテキストの前記第1のテキストセグメントは、タイムスタンプ付きであり、前記第1のビデオフレームは、前記タイムスタンプ付きの第1のテキストセグメントの中の前記誤った用語の位置に対応する、前記メディアアセットの位置において抽出される、請求項2に記載の方法。
- 前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別することはさらに、
前記第1のテキストセグメントの一部からキーワードを抽出することと、
前記文脈用語および前記キーワードに対応する節点に関して、前記ナレッジグラフの中で検索することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに関して、前記節点を分析することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに基づいて、少なくとも1つの他の節点を決定することであって、前記少なくとも1つの他の節点は、前記候補訂正に対応する、ことと
を含む、請求項2に記載の方法。 - 前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を識別することと、
前記第2のテキストセグメントに対応する第2のビデオフレームを分析し、前記誤った用語と関連付けられる第2の文脈用語を決定することと、
前記ナレッジグラフにアクセスし、前記第1の文脈用語、前記第2の文脈用語、前記第1のテキストセグメントの一部、および前記第2のテキストセグメントの一部に基づいて、更新された候補訂正を識別することと、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を前記更新された候補訂正と置換することと
をさらに含む、請求項2に記載の方法。 - 前記第1のテキストセグメントの中の前記候補訂正を前記更新された候補訂正と置換することをさらに含む、請求項6に記載の方法。
- 前記ナレッジグラフにアクセスし、前記誤った用語のための前記候補訂正を識別することはさらに、
前記ナレッジグラフから、前記誤った用語のための複数の潜在的訂正を決定することと、
前記決定に基づいて、加重を前記複数の潜在的訂正のうちの各潜在的訂正に割り当てることと、
前記候補訂正として、最高加重と関連付けられる潜在的訂正を識別することと
を含む、請求項2に記載の方法。 - 前記複数の潜在的訂正のうちのより最近の潜在的訂正は、より高い加重を割り当てられる、請求項8に記載の方法。
- 音声アルゴリズムに基づいて、潜在的候補訂正と前記誤った用語との間の音声類似性スコアを決定することと、
より高い音声類似性スコアを伴う前記潜在的候補訂正により高い加重を割り当てることと
をさらに含む、請求項8に記載の方法。 - 前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別することはさらに、前記ナレッジグラフの既存の節点を更新することを含む、請求項2に記載の方法。
- メディアアセットの画面上のキャプションテキストの中の誤った用語を訂正するためのシステムであって、
ナレッジグラフを記憶するメモリと、
制御回路であって、
前記メディアアセットのオーディオストリームを分析し、前記画面上のキャプションテキストの第1のテキストセグメントを決定することと、
前記画面上のキャプションテキストの第1のテキストセグメントの中の誤った用語を識別することと、
前記第1のテキストセグメントに対応する前記メディアアセットのビデオストリームから、1つ以上のビデオフレームを抽出することと、
前記1つ以上のビデオフレームのうちの第1のビデオフレームを分析し、前記誤った用語と関連付けられる文脈用語を決定することと、
ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記誤った用語のための候補訂正を識別することと、
クローズドキャプションテキストの前記第1のテキストセグメントの中の前記誤った用語を前記候補訂正と置換することと
を行うように構成される、制御回路と
を備える、システム。 - 前記第1のテキストセグメントの中の前記誤った用語を識別するようにさらに構成される、前記制御回路はさらに、前記第1のテキストセグメントへの処理によって自然言語を実施し、複数の文法規則に対して前記第1のテキストセグメントを比較することを含む、請求項12に記載のシステム。
- 前記画面上のキャプションテキストの前記第1のテキストセグメントは、タイムスタンプ付きであり、前記第1のビデオフレームは、前記タイムスタンプ付きの第1のテキストセグメントの中の前記誤った用語の位置に対応する、前記メディアアセットの位置において抽出される、請求項12に記載のシステム。
- 前記制御回路はさらに、
前記第1のテキストセグメントの一部からキーワードを抽出することと、
前記文脈用語および前記キーワードに対応する節点に関して、前記ナレッジグラフの中で検索することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに関して、前記節点を分析することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに基づいて、少なくとも1つの他の節点を決定することであって、前記少なくとも1つの他の節点は、前記候補訂正に対応する、ことと
によって、前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するように構成される、請求項12に記載のシステム。 - 前記制御回路はさらに、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を識別することと、
前記第2のテキストセグメントに対応する第2のビデオフレームを分析し、前記誤った用語と関連付けられる第2の文脈用語を決定することと、
前記ナレッジグラフにアクセスし、前記第1の文脈用語、前記第2の文脈用語、前記第1のテキストセグメントの一部、および前記第2のテキストセグメントの一部に基づいて、更新された候補訂正を識別することと、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を前記更新された候補訂正と置換することと
を行うように構成される、請求項12に記載のシステム。 - 前記制御回路はさらに、前記第1のテキストセグメントの中の前記候補訂正を前記更新された候補訂正と置換するように構成される、請求項16に記載のシステム。
- 前記制御回路はさらに、
前記ナレッジグラフから、前記誤った用語のための複数の潜在的訂正を決定することと、
前記決定に基づいて、加重を前記複数の潜在的訂正のうちの各潜在的訂正に割り当てることと、
前記候補訂正として、最高加重と関連付けられる潜在的訂正を識別することと
によって、前記ナレッジグラフにアクセスし、前記誤った用語のための前記候補訂正を識別するように構成される、請求項12に記載のシステム。 - 前記複数の潜在的訂正のうちのより最近の潜在的訂正は、より高い加重を割り当てられる、請求項18に記載のシステム。
- 前記制御回路はさらに、
音声アルゴリズムに基づいて、潜在的候補訂正と前記誤った用語との間の音声類似性スコアを決定することと、
より高い音声類似性スコアを伴う前記潜在的候補訂正により高い加重を割り当てることと
を行うように構成される、請求項18に記載のシステム。 - 前記制御回路はさらに、前記ナレッジグラフの既存の節点を更新することによって、前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するように構成される、請求項12に記載のシステム。
- メディアアセットの画面上のキャプションテキストの中の誤った用語を訂正するための装置であって、
前記メディアアセットのオーディオストリームを分析し、前記画面上のキャプションテキストの第1のテキストセグメントを決定するための手段と、
前記画面上のキャプションテキストの第1のテキストセグメントの中の誤った用語を識別するための手段と、
前記第1のテキストセグメントに対応する前記メディアアセットのビデオストリームから、1つ以上のビデオフレームを抽出するための手段と、
前記1つ以上のビデオフレームのうちの第1のビデオフレームを分析し、前記誤った用語と関連付けられる文脈用語を決定するための手段と、
ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記誤った用語のための候補訂正を識別するための手段と、
クローズドキャプションテキストの前記第1のテキストセグメントの中の前記誤った用語を前記候補訂正と置換するための手段と
を備える、装置。 - 前記第1のテキストセグメントの中の前記誤った用語を識別するための前記手段はさらに、前記第1のテキストセグメントに自然言語処理を実施し、複数の文法規則に対して前記第1のテキストセグメントを比較するための手段を備える、請求項22に記載の装置。
- 前記画面上のキャプションテキストの前記第1のテキストセグメントは、タイムスタンプ付きであり、前記第1のビデオフレームは、前記タイムスタンプ付きの第1のテキストセグメントの中の前記誤った用語の位置に対応する、前記メディアアセットの位置において抽出される、請求項22に記載の装置。
- 前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するための前記手段はさらに、
前記第1のテキストセグメントの一部からキーワードを抽出するための手段と、
前記文脈用語および前記キーワードに対応する節点に関して、前記ナレッジグラフの中で検索するための手段と、
前記文脈用語および前記キーワードと関連付けられるプロパティに関して、前記節点を分析するための手段と、
前記文脈用語および前記キーワードと関連付けられるプロパティに基づいて、少なくとも1つの他の節点を決定するための手段であって、前記少なくとも1つの他の節点は、前記候補訂正に対応する、手段と
を備える、請求項22に記載の装置。 - 前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を識別するための手段と、
前記第2のテキストセグメントに対応する第2のビデオフレームを分析し、前記誤った用語と関連付けられる第2の文脈用語を決定するための手段と、
前記ナレッジグラフにアクセスし、前記第1の文脈用語、前記第2の文脈用語、前記第1のテキストセグメントの一部、および前記第2のテキストセグメントの一部に基づいて、更新された候補訂正を識別するための手段と、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を前記更新された候補訂正と置換するための手段と
をさらに備える、請求項22に記載の装置。 - 前記第1のテキストセグメントの中の前記候補訂正を前記更新された候補訂正と置換するための手段をさらに備える、請求項26に記載の装置。
- 前記ナレッジグラフにアクセスし、前記誤った用語のための前記候補訂正を識別するための前記手段はさらに、
前記ナレッジグラフから、前記誤った用語のための複数の潜在的訂正を決定するための手段と、
前記決定に基づいて、加重を前記複数の潜在的訂正のうちの各潜在的訂正に割り当てるための手段と、
前記候補訂正として、最高加重と関連付けられる潜在的訂正を識別するための手段と
を備える、請求項22に記載の装置。 - 前記複数の潜在的訂正のうちのより最近の潜在的訂正は、より高い加重を割り当てられる、請求項28に記載の装置。
- 音声アルゴリズムに基づいて、潜在的候補訂正と前記誤った用語との間の音声類似性スコアを決定するための手段と、
より高い音声類似性スコアを伴う前記潜在的候補訂正により高い加重を割り当てるための手段と
をさらに備える、請求項28に記載の装置。 - 前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するための前記手段はさらに、前記ナレッジグラフの既存の節点を更新するための手段を備える、請求項22に記載の装置。
- 命令を伴うメモリを備える非一過性の機械可読媒体であって、前記命令は、メディアアセットの画面上のキャプションテキストの中の誤った用語を訂正するために前記メモリ上にエンコードされており、前記非一過性の機械可読媒体は、
前記メディアアセットのオーディオストリームを分析し、前記画面上のキャプションテキストの第1のテキストセグメントを決定するための命令と、
前記画面上のキャプションテキストの第1のテキストセグメントの中の誤った用語を識別するための命令と、
前記第1のテキストセグメントに対応する前記メディアアセットのビデオストリームから、1つ以上のビデオフレームを抽出するための命令と、
前記1つ以上のビデオフレームのうちの第1のビデオフレームを分析し、前記誤った用語と関連付けられる文脈用語を決定するための命令と、
ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記誤った用語のための候補訂正を識別するための命令と、
クローズドキャプションテキストの前記第1のテキストセグメントの中の前記誤った用語を前記候補訂正と置換するための命令と
を備える、非一過性の機械可読媒体。 - 前記第1のテキストセグメントの中の前記誤った用語を識別するための前記命令はさらに、前記第1のテキストセグメントに自然言語処理を実施し、複数の文法規則に対して前記第1のテキストセグメントを比較するための命令を備える、請求項32に記載の非一過性の機械可読媒体。
- 前記画面上のキャプションテキストの前記第1のテキストセグメントは、タイムスタンプ付きであり、前記第1のビデオフレームは、前記タイムスタンプ付きの第1のテキストセグメントの中の前記誤った用語の位置に対応する、前記メディアアセットの位置において抽出される、請求項32に記載の非一過性の機械可読媒体。
- 前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するための前記命令はさらに、
前記第1のテキストセグメントの一部からキーワードを抽出するための命令と、
前記文脈用語および前記キーワードに対応する節点に関して、前記ナレッジグラフの中で検索するための命令と、
前記文脈用語および前記キーワードと関連付けられるプロパティに関して、前記節点を分析するための命令と、
前記文脈用語および前記キーワードと関連付けられるプロパティに基づいて、少なくとも1つの他の節点を決定するための命令であって、前記少なくとも1つの他の節点は、前記候補訂正に対応する、命令と
を備える、請求項32に記載の非一過性の機械可読媒体。 - 前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を識別するための命令と、
前記第2のテキストセグメントに対応する第2のビデオフレームを分析し、前記誤った用語と関連付けられる第2の文脈用語を決定するための命令と、
前記ナレッジグラフにアクセスし、前記第1の文脈用語、前記第2の文脈用語、前記第1のテキストセグメントの一部、および前記第2のテキストセグメントの一部に基づいて、更新された候補訂正を識別するための命令と、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を前記更新された候補訂正と置換するための命令と
をさらに備える、請求項32に記載の非一過性の機械可読媒体。 - 前記第1のテキストセグメントの中の前記候補訂正を前記更新された候補訂正と置換するための命令をさらに備える、請求項36に記載の非一過性の機械可読媒体。
- 前記ナレッジグラフにアクセスし、前記誤った用語のための前記候補訂正を識別するための前記命令はさらに、
前記ナレッジグラフから、前記誤った用語のための複数の潜在的訂正を決定するための命令と、
前記決定に基づいて、加重を前記複数の潜在的訂正のうちの各潜在的訂正に割り当てるための命令と、
前記候補訂正として、最高加重と関連付けられる潜在的訂正を識別するための命令と
を備える、請求項32に記載の非一過性の機械可読媒体。 - 前記複数の潜在的訂正のうちのより最近の潜在的訂正は、より高い加重を割り当てられる、請求項38に記載の非一過性の機械可読媒体。
- 音声アルゴリズムに基づいて、潜在的候補訂正と前記誤った用語との間の音声類似性スコアを決定するための命令と、
より高い音声類似性スコアを伴う前記潜在的候補訂正により高い加重を割り当てるための命令と
をさらに備える、請求項38に記載の非一過性の機械可読媒体。 - 前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別するための前記命令はさらに、前記ナレッジグラフの既存の節点を更新するための命令を備える、請求項32に記載の非一過性の機械可読媒体。
- メディアアセットの画面上のキャプションテキストの中の誤った用語を訂正するための方法であって、
前記メディアアセットのオーディオストリームを分析し、前記画面上のキャプションテキストの第1のテキストセグメントを決定することと、
前記画面上のキャプションテキストの第1のテキストセグメントの中の誤った用語を識別することと、
前記第1のテキストセグメントに対応する前記メディアアセットのビデオストリームから、1つ以上のビデオフレームを抽出することと、
前記1つ以上のビデオフレームのうちの第1のビデオフレームを分析し、前記誤った用語と関連付けられる文脈用語を決定することと、
ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記誤った用語のための候補訂正を識別することと、
クローズドキャプションテキストの前記第1のテキストセグメントの中の前記誤った用語を前記候補訂正と置換することと
を含む、方法。 - 前記第1のテキストセグメントの中の前記誤った用語を識別することはさらに、前記第1のテキストセグメントに自然言語処理を実施し、複数の文法規則に対して前記第1のテキストセグメントを比較することを含む、請求項42に記載の方法。
- 前記画面上のキャプションテキストの前記第1のテキストセグメントは、タイムスタンプ付きであり、前記第1のビデオフレームは、前記タイムスタンプ付きの第1のテキストセグメントの中の前記誤った用語の位置に対応する、前記メディアアセットの位置において抽出される、請求項42および43のいずれか1項に記載の方法。
- 前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別することはさらに、
前記第1のテキストセグメントの一部からキーワードを抽出することと、
前記文脈用語および前記キーワードに対応する節点に関して、前記ナレッジグラフの中で検索することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに関して、前記節点を分析することと、
前記文脈用語および前記キーワードと関連付けられるプロパティに基づいて、少なくとも1つの他の節点を決定することであって、前記少なくとも1つの他の節点は、前記候補訂正に対応する、ことと
を含む、請求項42−44のいずれか1項に記載の方法。 - 前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を識別することと、
前記第2のテキストセグメントに対応する第2のビデオフレームを分析し、前記誤った用語と関連付けられる第2の文脈用語を決定することと、
前記ナレッジグラフにアクセスし、前記第1の文脈用語、前記第2の文脈用語、前記第1のテキストセグメントの一部、および前記第2のテキストセグメントの一部に基づいて、更新された候補訂正を識別することと、
前記画面上のキャプションテキストの第2のテキストセグメントの中の前記誤った用語を前記更新された候補訂正と置換することと
をさらに含む、請求項42−45のいずれか1項に記載の方法。 - 前記第1のテキストセグメントの中の前記候補訂正を前記更新された候補訂正と置換することをさらに含む、請求項46に記載の方法。
- 前記ナレッジグラフにアクセスし、前記誤った用語のための前記候補訂正を識別することはさらに、
前記ナレッジグラフから、前記誤った用語のための複数の潜在的訂正を決定することと、
前記決定に基づいて、加重を前記複数の潜在的訂正のうちの各潜在的訂正に割り当てることと、
前記候補訂正として、最高加重と関連付けられる潜在的訂正を識別することと
を含む、請求項42−47のいずれか1項に記載の方法。 - 前記複数の潜在的訂正のうちのより最近の潜在的訂正は、より高い加重を割り当てられる、請求項48に記載の方法。
- 音声アルゴリズムに基づいて、潜在的候補訂正と前記誤った用語との間の音声類似性スコアを決定することと、
より高い音声類似性スコアを伴う前記潜在的候補訂正により高い加重を割り当てることと
をさらに含む、請求項48に記載の方法。 - 前記ナレッジグラフにアクセスし、前記文脈用語および前記第1のテキストセグメントの一部に基づいて、前記候補訂正を識別することはさらに、前記ナレッジグラフの既存の節点を更新することを含む、請求項42−50のいずれか1項に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2016/054689 WO2018063293A1 (en) | 2016-09-30 | 2016-09-30 | Systems and methods for correcting errors in caption text |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019537307A true JP2019537307A (ja) | 2019-12-19 |
JP6936318B2 JP6936318B2 (ja) | 2021-09-15 |
Family
ID=57137291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019517092A Active JP6936318B2 (ja) | 2016-09-30 | 2016-09-30 | キャプションテキストにおける間違いを訂正するためのシステムおよび方法 |
Country Status (10)
Country | Link |
---|---|
US (3) | US10834439B2 (ja) |
EP (1) | EP3520427A1 (ja) |
JP (1) | JP6936318B2 (ja) |
KR (1) | KR102612355B1 (ja) |
CN (1) | CN110235449A (ja) |
AU (1) | AU2016424629A1 (ja) |
BR (1) | BR112019006118A2 (ja) |
CA (1) | CA3038797A1 (ja) |
MX (1) | MX2019003637A (ja) |
WO (1) | WO2018063293A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3520427A1 (en) | 2016-09-30 | 2019-08-07 | Rovi Guides, Inc. | Systems and methods for correcting errors in caption text |
JP7210938B2 (ja) * | 2018-08-29 | 2023-01-24 | 富士通株式会社 | テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 |
WO2020049622A1 (ja) * | 2018-09-03 | 2020-03-12 | 日本電気株式会社 | 情報処理装置、分析システム、分析方法及び分析プログラムが格納された非一時的なコンピュータ可読媒体 |
KR102345625B1 (ko) | 2019-02-01 | 2021-12-31 | 삼성전자주식회사 | 자막 생성 방법 및 이를 수행하는 장치 |
US10991370B2 (en) | 2019-04-16 | 2021-04-27 | International Business Machines Corporation | Speech to text conversion engine for non-standard speech |
US11328712B2 (en) | 2019-08-02 | 2022-05-10 | International Business Machines Corporation | Domain specific correction of output from automatic speech recognition |
US11093755B2 (en) * | 2019-11-19 | 2021-08-17 | International Business Machines Corporation | Video segmentation based on weighted knowledge graph |
US11429876B2 (en) * | 2020-03-10 | 2022-08-30 | International Business Machines Corporation | Infusing knowledge into natural language processing tasks using graph structures |
CN111787363B (zh) * | 2020-06-24 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种多媒体数据处理方法、装置、设备及可读存储介质 |
CN111897535A (zh) * | 2020-07-30 | 2020-11-06 | 平安科技(深圳)有限公司 | 语法纠错方法、装置、计算机系统及可读存储介质 |
CN112738640B (zh) * | 2020-12-28 | 2022-08-19 | 出门问问(武汉)信息科技有限公司 | 一种视频流的字幕的确定方法、装置及可读存储介质 |
CN113722513B (zh) * | 2021-09-06 | 2022-12-20 | 抖音视界有限公司 | 多媒体数据的处理方法及设备 |
US11778280B1 (en) | 2022-05-17 | 2023-10-03 | Microsoft Technology Licensing, Llc | Geolocation-specific subtitle generation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118374A1 (en) * | 2005-11-23 | 2007-05-24 | Wise Gerald B | Method for generating closed captions |
US20070118357A1 (en) * | 2005-11-21 | 2007-05-24 | Kas Kasravi | Word recognition using ontologies |
JP2007256714A (ja) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | 字幕修正装置 |
JP2016110087A (ja) * | 2014-12-02 | 2016-06-20 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識方法及び音声認識装置 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6239794B1 (en) | 1994-08-31 | 2001-05-29 | E Guide, Inc. | Method and system for simultaneously displaying a television program and information about the program |
US5493677A (en) * | 1994-06-08 | 1996-02-20 | Systems Research & Applications Corporation | Generation, archiving, and retrieval of digital images with evoked suggestion-set captions and natural language interface |
US6564378B1 (en) | 1997-12-08 | 2003-05-13 | United Video Properties, Inc. | Program guide system with browsing display |
CN1867068A (zh) | 1998-07-14 | 2006-11-22 | 联合视频制品公司 | 交互式电视节目导视系统及其方法 |
EP1986425B2 (en) | 1998-07-17 | 2019-01-30 | Rovi Guides, Inc. | Interactive television program guide system having multiple devices within a household |
AR020608A1 (es) | 1998-07-17 | 2002-05-22 | United Video Properties Inc | Un metodo y una disposicion para suministrar a un usuario acceso remoto a una guia de programacion interactiva por un enlace de acceso remoto |
US7165098B1 (en) | 1998-11-10 | 2007-01-16 | United Video Properties, Inc. | On-line schedule system with personalization features |
US6473778B1 (en) * | 1998-12-24 | 2002-10-29 | At&T Corporation | Generating hypermedia documents from transcriptions of television programs using parallel text alignment |
AU2002250350B2 (en) | 2001-02-21 | 2007-12-20 | Rovi Guides, Inc. | Systems and methods for interactive program guides with personal video recording features |
EP1848192A4 (en) * | 2005-02-08 | 2012-10-03 | Nippon Telegraph & Telephone | END DEVICE, SYSTEM, METHOD AND PROGRAM FOR INFORMATION COMMUNICATION AND RECORDING MEDIUM WHICH RECORDED THE PROGRAM |
CN100536532C (zh) * | 2005-05-23 | 2009-09-02 | 北京大学 | 自动加配字幕的方法和系统 |
US20070118364A1 (en) * | 2005-11-23 | 2007-05-24 | Wise Gerald B | System for generating closed captions |
US20100153885A1 (en) | 2005-12-29 | 2010-06-17 | Rovi Technologies Corporation | Systems and methods for interacting with advanced displays provided by an interactive media guidance application |
US7296218B2 (en) * | 2006-02-08 | 2007-11-13 | Dittrich William A | Instant note capture/presentation apparatus, system and method |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US8149330B2 (en) | 2008-01-19 | 2012-04-03 | At&T Intellectual Property I, L. P. | Methods, systems, and products for automated correction of closed captioning data |
US9049477B2 (en) * | 2008-11-13 | 2015-06-02 | At&T Intellectual Property I, Lp | Apparatus and method for managing media content |
US8281231B2 (en) * | 2009-09-11 | 2012-10-02 | Digitalsmiths, Inc. | Timeline alignment for closed-caption text using speech recognition transcripts |
US8307396B2 (en) * | 2010-06-28 | 2012-11-06 | At&T Intellectual Property I, L.P. | Systems and methods for producing processed media content |
US9262397B2 (en) * | 2010-10-08 | 2016-02-16 | Microsoft Technology Licensing, Llc | General purpose correction of grammatical and word usage errors |
US10031968B2 (en) * | 2012-10-11 | 2018-07-24 | Veveo, Inc. | Method for adaptive conversation state management with filtering operators applied dynamically as part of a conversational interface |
US20160035392A1 (en) | 2012-11-22 | 2016-02-04 | Didja, Inc. | Systems and methods for clipping video segments |
KR102129536B1 (ko) * | 2013-08-06 | 2020-07-03 | 삼성전자주식회사 | 모바일 단말기 및 그의 제어 방법 |
US9189742B2 (en) * | 2013-11-20 | 2015-11-17 | Justin London | Adaptive virtual intelligent agent |
CA2938064A1 (en) * | 2014-01-28 | 2015-08-06 | Somol Zorzin Gmbh | Method for automatically detecting meaning and measuring the univocality of text |
US20150242386A1 (en) * | 2014-02-26 | 2015-08-27 | Google Inc. | Using language models to correct morphological errors in text |
US9830321B2 (en) * | 2014-09-30 | 2017-11-28 | Rovi Guides, Inc. | Systems and methods for searching for a media asset |
US9626001B2 (en) * | 2014-11-13 | 2017-04-18 | International Business Machines Corporation | Speech recognition candidate selection based on non-acoustic input |
EP3520427A1 (en) | 2016-09-30 | 2019-08-07 | Rovi Guides, Inc. | Systems and methods for correcting errors in caption text |
-
2016
- 2016-09-30 EP EP16781950.7A patent/EP3520427A1/en not_active Ceased
- 2016-09-30 MX MX2019003637A patent/MX2019003637A/es unknown
- 2016-09-30 CN CN201680090655.XA patent/CN110235449A/zh active Pending
- 2016-09-30 WO PCT/US2016/054689 patent/WO2018063293A1/en unknown
- 2016-09-30 KR KR1020197011962A patent/KR102612355B1/ko active IP Right Grant
- 2016-09-30 AU AU2016424629A patent/AU2016424629A1/en not_active Abandoned
- 2016-09-30 BR BR112019006118A patent/BR112019006118A2/pt not_active Application Discontinuation
- 2016-09-30 CA CA3038797A patent/CA3038797A1/en active Pending
- 2016-09-30 US US16/067,036 patent/US10834439B2/en active Active
- 2016-09-30 JP JP2019517092A patent/JP6936318B2/ja active Active
-
2020
- 2020-10-05 US US17/063,373 patent/US11863806B2/en active Active
-
2023
- 2023-11-14 US US18/389,315 patent/US20240089516A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118357A1 (en) * | 2005-11-21 | 2007-05-24 | Kas Kasravi | Word recognition using ontologies |
US20070118374A1 (en) * | 2005-11-23 | 2007-05-24 | Wise Gerald B | Method for generating closed captions |
JP2007256714A (ja) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | 字幕修正装置 |
JP2016110087A (ja) * | 2014-12-02 | 2016-06-20 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識方法及び音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20190055204A (ko) | 2019-05-22 |
US20190215545A1 (en) | 2019-07-11 |
US20240089516A1 (en) | 2024-03-14 |
US11863806B2 (en) | 2024-01-02 |
CN110235449A (zh) | 2019-09-13 |
AU2016424629A1 (en) | 2019-04-11 |
WO2018063293A1 (en) | 2018-04-05 |
US20210037274A1 (en) | 2021-02-04 |
MX2019003637A (es) | 2019-09-26 |
BR112019006118A2 (pt) | 2019-06-18 |
KR102612355B1 (ko) | 2023-12-08 |
US10834439B2 (en) | 2020-11-10 |
JP6936318B2 (ja) | 2021-09-15 |
CA3038797A1 (en) | 2018-04-05 |
EP3520427A1 (en) | 2019-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11860927B2 (en) | Systems and methods for searching for a media asset | |
US11863806B2 (en) | Systems and methods for correcting errors in caption text | |
US20220215178A1 (en) | Systems and methods for determining context switching in conversation | |
US10672390B2 (en) | Systems and methods for improving speech recognition performance by generating combined interpretations | |
US20200007946A1 (en) | Selectively delivering a translation for a media asset based on user proficiency level in the foreign language and proficiency level required to comprehend the media asset | |
US10031967B2 (en) | Systems and methods for using a trained model for determining whether a query comprising multiple segments relates to an individual query or several queries | |
US11687729B2 (en) | Systems and methods for training a model to determine whether a query with multiple segments comprises multiple distinct commands or a combined command |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190930 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190930 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200909 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200928 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20201208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210826 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6936318 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |