JP2020034704A - テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 - Google Patents
テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 Download PDFInfo
- Publication number
- JP2020034704A JP2020034704A JP2018160873A JP2018160873A JP2020034704A JP 2020034704 A JP2020034704 A JP 2020034704A JP 2018160873 A JP2018160873 A JP 2018160873A JP 2018160873 A JP2018160873 A JP 2018160873A JP 2020034704 A JP2020034704 A JP 2020034704A
- Authority
- JP
- Japan
- Prior art keywords
- text
- corrected
- telop
- meta information
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
教師データに対応するテキストの文字列、当該テキストの文脈データおよびメタ情報を入力とし、前記テキストの誤りを補正するように学習したニューラルネットワークに対して、前記補正対象のテキストの文字列、生成した前記文脈データおよび当該テキストに対応するメタ情報を入力し、前記補正対象のテキストの誤りを補正する補正部と、
を有することを特徴とするテキスト生成装置。
前記メタ情報は、前記動画像におけるテロップの位置、動画像の属性および音声の内容を示す音声テキストのうちの少なくとも一つである、
ことを特徴とする付記1に記載のテキスト生成装置。
ことを特徴とする付記1または2に記載のテキスト生成装置。
教師データに対応するテキストの文字列、当該テキストの文脈データおよびメタ情報を入力とし、前記テキストの誤りを補正するように学習したニューラルネットワークに対して、前記補正対象のテキストの文字列、生成した前記文脈データおよび当該テキストに対応するメタ情報を入力し、前記補正対象のテキストの誤りを補正する、
処理をコンピュータに実行させることを特徴とするテキスト生成プログラム。
前記メタ情報は、前記動画像におけるテロップの位置、動画像の属性および音声の内容を示す音声テキストのうちの少なくとも一つである、
ことを特徴とする付記4に記載のテキスト生成プログラム。
ことを特徴とする付記4または5に記載のテキスト生成プログラム。
教師データに対応するテキストの文字列、当該テキストの文脈データおよびメタ情報を入力とし、前記テキストの誤りを補正するように学習したニューラルネットワークに対して、前記補正対象のテキストの文字列、生成した前記文脈データおよび当該テキストに対応するメタ情報を入力し、前記補正対象のテキストの誤りを補正する、
処理をコンピュータが実行することを特徴とするテキスト生成方法。
前記メタ情報は、前記動画像におけるテロップの位置、動画像の属性および音声の内容を示す音声テキストのうちの少なくとも一つである、
ことを特徴とする付記7に記載のテキスト生成方法。
ことを特徴とする付記7または8に記載のテキスト生成方法。
10…テキスト生成処理部
11…教師データ作成部
11a…教師データ作成制御部
11b…メタ情報分解部
11c…メタ情報作成部
11d…文脈データ作成部
12…誤り補正部
20…記憶部
21…入力データ格納部
21a…テロップ動画
21b…メタ情報
22…教師データ格納部
22a…画像情報
22b…音声テキスト
22c…テロップテキスト
22d…文脈データ
23…誤り補正済みテロップ格納部
51…教師データ
52…正解データ
53…ニューラルネットワーク定義
54…学習済み重み(オプション)
55…ハイパーパラメタ
56…推論結果
60…学習済み重み
61…テストデータ
62…ニューラルネットワーク定義
63…推論結果
111…メタ情報作成制御部
112…画像分類エンジン
113…音声認識エンジン
114…テロップ認識エンジン
201…CPU
202…入力装置
203…モニタ
204…スピーカ
205…媒体読取装置
206…インタフェース装置
207…通信装置
208…RAM
209…ハードディスク装置
210…バス
211…プログラム
212…各種データ
Claims (5)
- 補正対象のテキストに基づき、当該テキストの文脈を示す文脈データを生成する生成部と、
教師データに対応するテキストの文字列、当該テキストの文脈データおよびメタ情報を入力とし、前記テキストの誤りを補正するように学習したニューラルネットワークに対して、前記補正対象のテキストの文字列、生成した前記文脈データおよび当該テキストに対応するメタ情報を入力し、前記補正対象のテキストの誤りを補正する補正部と、
を有することを特徴とするテキスト生成装置。 - 前記補正対象のテキストは、動画像のテロップであり、
前記メタ情報は、前記動画像におけるテロップの位置、動画像の属性および音声の内容を示す音声テキストのうちの少なくとも一つである、
ことを特徴とする請求項1に記載のテキスト生成装置。 - 前記ニューラルネットワークは、前記補正対象のテキストの文字列について、並び順の順方向および逆方向の双方向から入力を受け付けて誤りを補正した文字列を出力する双方向ニューラルネットワークである、
ことを特徴とする請求項1または2に記載のテキスト生成装置。 - 補正対象のテキストに基づき、当該テキストの文脈を示す文脈データを生成し、
教師データに対応するテキストの文字列、当該テキストの文脈データおよびメタ情報を入力とし、前記テキストの誤りを補正するように学習したニューラルネットワークに対して、前記補正対象のテキストの文字列、生成した前記文脈データおよび当該テキストに対応するメタ情報を入力し、前記補正対象のテキストの誤りを補正する、
処理をコンピュータに実行させることを特徴とするテキスト生成プログラム。 - 補正対象のテキストに基づき、当該テキストの文脈を示す文脈データを生成し、
教師データに対応するテキストの文字列、当該テキストの文脈データおよびメタ情報を入力とし、前記テキストの誤りを補正するように学習したニューラルネットワークに対して、前記補正対象のテキストの文字列、生成した前記文脈データおよび当該テキストに対応するメタ情報を入力し、前記補正対象のテキストの誤りを補正する、
処理をコンピュータが実行することを特徴とするテキスト生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018160873A JP7210938B2 (ja) | 2018-08-29 | 2018-08-29 | テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 |
US16/549,599 US10984247B2 (en) | 2018-08-29 | 2019-08-23 | Accurate correction of errors in text data based on learning via a neural network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018160873A JP7210938B2 (ja) | 2018-08-29 | 2018-08-29 | テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020034704A true JP2020034704A (ja) | 2020-03-05 |
JP7210938B2 JP7210938B2 (ja) | 2023-01-24 |
Family
ID=69641274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018160873A Active JP7210938B2 (ja) | 2018-08-29 | 2018-08-29 | テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10984247B2 (ja) |
JP (1) | JP7210938B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084301A (zh) * | 2020-08-11 | 2020-12-15 | 网易有道信息技术(北京)有限公司 | 文本修正模型的训练方法及装置、文本修正方法及装置 |
CN112183072A (zh) * | 2020-10-16 | 2021-01-05 | 北京奇艺世纪科技有限公司 | 一种文本纠错方法、装置、电子设备及可读存储介质 |
CN113627159A (zh) * | 2021-08-18 | 2021-11-09 | 北京北大方正电子有限公司 | 纠错模型的训练数据确定方法、装置、介质及产品 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11250205B2 (en) * | 2020-07-10 | 2022-02-15 | International Business Machines Corporation | Performance characteristics of cartridge artifacts over text pattern constructs |
US12061869B2 (en) * | 2021-10-29 | 2024-08-13 | Konica Minolta Business Solutions U.S.A., Inc. | Deep-learning based text correction method and apparatus |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015075706A (ja) * | 2013-10-10 | 2015-04-20 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
JP2017111190A (ja) * | 2015-12-14 | 2017-06-22 | 株式会社日立製作所 | 対話テキスト要約装置及び方法 |
WO2018063293A1 (en) * | 2016-09-30 | 2018-04-05 | Rovi Guides, Inc. | Systems and methods for correcting errors in caption text |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5251268A (en) * | 1991-08-09 | 1993-10-05 | Electric Power Research Institute, Inc. | Integrated method and apparatus for character and symbol recognition |
US20050120391A1 (en) * | 2003-12-02 | 2005-06-02 | Quadrock Communications, Inc. | System and method for generation of interactive TV content |
US10290320B2 (en) * | 2015-12-09 | 2019-05-14 | Verizon Patent And Licensing Inc. | Automatic media summary creation systems and methods |
GB2556612B (en) * | 2016-04-18 | 2022-03-09 | Grass Valley Ltd | Monitoring audio-visual content with captions |
US10490209B2 (en) * | 2016-05-02 | 2019-11-26 | Google Llc | Automatic determination of timing windows for speech captions in an audio stream |
US10402495B1 (en) * | 2016-09-01 | 2019-09-03 | Facebook, Inc. | Abstractive sentence summarization |
US10592706B2 (en) * | 2017-03-29 | 2020-03-17 | Valyant AI, Inc. | Artificially intelligent order processing system |
US10380259B2 (en) * | 2017-05-22 | 2019-08-13 | International Business Machines Corporation | Deep embedding for natural language content based on semantic dependencies |
US10515625B1 (en) * | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
US10496884B1 (en) * | 2017-09-19 | 2019-12-03 | Deepradiology Inc. | Transformation of textbook information |
KR102085908B1 (ko) * | 2018-05-10 | 2020-03-09 | 네이버 주식회사 | 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법 |
US11170166B2 (en) * | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
-
2018
- 2018-08-29 JP JP2018160873A patent/JP7210938B2/ja active Active
-
2019
- 2019-08-23 US US16/549,599 patent/US10984247B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015075706A (ja) * | 2013-10-10 | 2015-04-20 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
JP2017111190A (ja) * | 2015-12-14 | 2017-06-22 | 株式会社日立製作所 | 対話テキスト要約装置及び方法 |
WO2018063293A1 (en) * | 2016-09-30 | 2018-04-05 | Rovi Guides, Inc. | Systems and methods for correcting errors in caption text |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084301A (zh) * | 2020-08-11 | 2020-12-15 | 网易有道信息技术(北京)有限公司 | 文本修正模型的训练方法及装置、文本修正方法及装置 |
CN112084301B (zh) * | 2020-08-11 | 2023-12-15 | 网易有道信息技术(北京)有限公司 | 文本修正模型的训练方法及装置、文本修正方法及装置 |
CN112183072A (zh) * | 2020-10-16 | 2021-01-05 | 北京奇艺世纪科技有限公司 | 一种文本纠错方法、装置、电子设备及可读存储介质 |
CN112183072B (zh) * | 2020-10-16 | 2023-07-21 | 北京奇艺世纪科技有限公司 | 一种文本纠错方法、装置、电子设备及可读存储介质 |
CN113627159A (zh) * | 2021-08-18 | 2021-11-09 | 北京北大方正电子有限公司 | 纠错模型的训练数据确定方法、装置、介质及产品 |
CN113627159B (zh) * | 2021-08-18 | 2024-05-17 | 北京北大方正电子有限公司 | 纠错模型的训练数据确定方法、装置、介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
US10984247B2 (en) | 2021-04-20 |
JP7210938B2 (ja) | 2023-01-24 |
US20200074180A1 (en) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020034704A (ja) | テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 | |
US11348570B2 (en) | Method for generating style statement, method and apparatus for training model, and computer device | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP2019200408A (ja) | 音声合成モデルを生成するための方法、及び装置 | |
US10217454B2 (en) | Voice synthesizer, voice synthesis method, and computer program product | |
US11270686B2 (en) | Deep language and acoustic modeling convergence and cross training | |
CN110770700A (zh) | 生成促进在利用不同语言和语法的不同运行时环境内执行任务的脚本 | |
US20170365252A1 (en) | Meaning generation method, meaning generation apparatus, and storage medium | |
CN109522550B (zh) | 文本信息纠错方法、装置、计算机设备和存储介质 | |
US20230259707A1 (en) | Systems and methods for natural language processing (nlp) model robustness determination | |
US20230055233A1 (en) | Method of Training Voice Recognition Model and Voice Recognition Device Trained by Using Same Method | |
JP2020034683A (ja) | 音声認識装置、音声認識プログラムおよび音声認識方法 | |
KR20190024148A (ko) | 음성 인식 장치 및 음성 인식 방법 | |
JP2019160236A (ja) | 学習データ生成方法、学習データ生成プログラムおよびデータ構造 | |
US20180033432A1 (en) | Voice interactive device and voice interaction method | |
Yuen et al. | Asdf: A differential testing framework for automatic speech recognition systems | |
US11538474B2 (en) | Electronic device and method for controlling the electronic device thereof | |
JP4587165B2 (ja) | 情報処理装置及びその制御方法 | |
JP2017126051A (ja) | テンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システム | |
CN115116443A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
JP2022088586A (ja) | 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム | |
JP2008293098A (ja) | 応答スコア情報生成装置、対話処理装置 | |
JP2022077831A (ja) | 質問推定装置、学習済みモデル生成装置、質問推定方法、学習済みモデルの生産方法、プログラム及び記録媒体 | |
JP2022185799A (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JP7052438B2 (ja) | 学習データ生成方法、学習データ生成プログラムおよびデータ構造 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7210938 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |