JP7430274B2 - 計算機システム及び文字認識方法 - Google Patents
計算機システム及び文字認識方法 Download PDFInfo
- Publication number
- JP7430274B2 JP7430274B2 JP2022553411A JP2022553411A JP7430274B2 JP 7430274 B2 JP7430274 B2 JP 7430274B2 JP 2022553411 A JP2022553411 A JP 2022553411A JP 2022553411 A JP2022553411 A JP 2022553411A JP 7430274 B2 JP7430274 B2 JP 7430274B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- time step
- character string
- probability
- arithmetic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000012545 processing Methods 0.000 claims description 75
- 238000012937 correction Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims 2
- 238000012217 deletion Methods 0.000 description 27
- 230000037430 deletion Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
Description
Claims (6)
- 文字認識処理を実行する計算機システムであって、
演算装置、前記演算装置に接続される記憶装置、及び、前記演算装置に接続され、外部装置と接続するインタフェースを有する計算機を少なくとも一つ備え、
文字列の生起確率を示す情報を言語知識として保持し、
入力画像から、第一数のタイムステップの時系列データの特徴量を算出する特徴量抽出部と、
前記時系列データの特徴量に基づいて、前記各タイムステップにおける複数の文字の各々に該当する確率を算出する識別候補出力部と、
Connectionist Temporal Classificationを用いて、前記各タイムステップの前記確率が最大の文字から構成される第一文字列を生成し、前記第一文字列から所定のタイムステップを削除することによって第二数の文字から構成される第二文字列を出力する処理と、前記識別候補出力部の処理結果及び前記言語知識を用いた補正ルールに基づいて前記第二文字列を補正することによって第三数の文字から構成される第三文字列を出力する処理とを実行するデコード部と、を備え、
前記デコード部は、
前記識別候補出力部によって算出された前記タイムステップの前記確率を成分とする確率ベクトルを前記タイムステップ順に並べた識別候補行列を取得する第1処理と、
前記言語知識を用いて、前記第二文字列に含まれる文字から構成される文字ペアの生起確率を算出する第2処理と、
前記識別候補行列及び前記文字ペアの生起確率を用いた前記補正ルールに基づいて前記第二文字列を補正する第3処理と、を実行し、
前記第3処理は、
前記第一文字列に含まれる文字に対応する前記タイムステップの中から探索タイムステップを選択する第4処理と、
前記探索タイムステップの前記確率ベクトルを用いて、前記探索タイムステップの候補文字を選択し、前記候補文字をノードとする層を定義する第5処理と、
時系列が隣接する二つの前記層の前記ノードを接続することによって有向グラフを生成する第6処理と、
前記有向グラフを用いて最適パスを探索する第7処理と、
前記最適パスを構成する前記ノードに対応する文字から構成される前記第三文字列を出力する第8処理と、を含み、
前記第4処理は、
前記識別候補行列及び前記文字ペアの生起確率を用いて、前記第一文字列から削除されたタイムステップの中から復元するタイムステップを選択して、前記選択されたタイムステップを復元する処理と、
前記選択されたタイムステップが復元された前記第二文字列に含まれる文字に対応する前記第一文字列の前記タイムステップを前記探索タイムステップとして選択する処理と、を含むことを特徴とする計算機システム。 - 請求項1に記載の計算機システムであって、
前記第4処理は、
前記識別候補行列及び前記文字ペアの生起確率を用いて、前記第二文字列から削除するタイムステップを選択して、前記選択されたタイムステップを削除する処理と、
前記選択されたタイムステップが削除された前記第二文字列に含まれる文字に対応する前記第一文字列の前記タイムステップを前記探索タイムステップとして選択する処理と、を含むことを特徴とする計算機システム。 - 請求項1に記載の計算機システムであって、
前記探索タイムステップを選択するための前記補正ルールを設定するためのインタフェースを提供する設定部を備えることを特徴とする計算機システム。 - 計算機システムが実行する文字認識方法であって、
前記計算機システムは、
演算装置、前記演算装置に接続される記憶装置、及び、前記演算装置に接続され、外部装置と接続するインタフェースを有する計算機を少なくとも一つ含み、
文字列の生起確率を示す情報を言語知識として保持し、
前記文字認識方法は、
前記演算装置が、入力画像から、第一数のタイムステップの時系列データの特徴量を算出する第1のステップと、
前記演算装置が、前記時系列データの特徴量に基づいて、前記各タイムステップにおける複数の文字の各々に該当する確率を算出する第2のステップと、
前記演算装置が、Connectionist Temporal Classificationを用いて、前記各タイムステップの前記確率が最大の文字から構成される第一文字列を生成し、前記第一文字列から所定のタイムステップを削除することによって第二数の文字から構成される第二文字列を出力する第3のステップと、
前記演算装置が、前記第2のステップの処理結果及び前記言語知識を用いた補正ルールに基づいて前記第二文字列を補正することによって第三数の文字から構成される第三文字列を出力する第4のステップと、を含み、
前記第4のステップは、
前記演算装置が、前記タイムステップの前記確率を成分とする確率ベクトルを前記タイムステップ順に並べた識別候補行列を取得する第5のステップと、
前記演算装置が、前記言語知識を用いて、前記第二文字列に含まれる文字から構成される文字ペアの生起確率を算出する第6のステップと、
前記演算装置が、前記識別候補行列及び前記文字ペアの生起確率を用いた前記補正ルールに基づいて前記第二文字列を補正する第7のステップと、を含み、
前記第7のステップは、
前記演算装置が、前記第一文字列に含まれる文字に対応する前記タイムステップの中から探索タイムステップを選択する第8のステップと、
前記演算装置が、前記探索タイムステップの前記確率ベクトルを用いて、前記探索タイムステップの候補文字を選択し、前記候補文字をノードとする層を定義する第9のステップと、
前記演算装置が、時系列が隣接する二つの前記層の前記ノードを接続することによって有向グラフを生成する第10のステップと、
前記演算装置が、前記有向グラフを用いて最適パスを探索する第11のステップと、
前記演算装置が、前記最適パスを構成する前記ノードに対応する文字から構成される前記第三文字列を出力する第12のステップと、を含み、
前記第8のステップは、
前記演算装置が、前記識別候補行列及び前記文字ペアの生起確率を用いて、前記第一文字列から削除されたタイムステップの中から復元するタイムステップを選択して、前記選択されたタイムステップを復元するステップと、
前記演算装置が、前記選択されたタイムステップが復元された前記第二文字列に含まれる文字に対応する前記第一文字列の前記タイムステップを前記探索タイムステップとして選択するステップと、を含むことを特徴とする文字認識方法。 - 請求項4に記載の文字認識方法であって、
前記第8のステップは、
前記演算装置が、前記識別候補行列及び前記文字ペアの生起確率を用いて、前記第二文字列から削除するタイムステップを選択して、前記選択されたタイムステップを削除するステップと、
前記演算装置が、前記選択されたタイムステップが削除された前記第二文字列に含まれる文字に対応する前記第一文字列の前記タイムステップを前記探索タイムステップとして選択するステップと、を含むことを特徴とする文字認識方法。 - 請求項4に記載の文字認識方法であって、
前記演算装置が、前記探索タイムステップを選択するための前記補正ルールを設定するためのインタフェースを提供するステップを含むことを特徴とする文字認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/037624 WO2022070422A1 (ja) | 2020-10-02 | 2020-10-02 | 計算機システム及び文字認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2022070422A1 JPWO2022070422A1 (ja) | 2022-04-07 |
JP7430274B2 true JP7430274B2 (ja) | 2024-02-09 |
Family
ID=80950414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022553411A Active JP7430274B2 (ja) | 2020-10-02 | 2020-10-02 | 計算機システム及び文字認識方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7430274B2 (ja) |
WO (1) | WO2022070422A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013047887A (ja) | 2011-08-29 | 2013-03-07 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
CN110796092A (zh) | 2019-10-30 | 2020-02-14 | 北京一起教育信息咨询有限责任公司 | 一种文字识别方法及装置 |
-
2020
- 2020-10-02 JP JP2022553411A patent/JP7430274B2/ja active Active
- 2020-10-02 WO PCT/JP2020/037624 patent/WO2022070422A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013047887A (ja) | 2011-08-29 | 2013-03-07 | Fuji Xerox Co Ltd | 画像処理装置及び画像処理プログラム |
CN110796092A (zh) | 2019-10-30 | 2020-02-14 | 北京一起教育信息咨询有限责任公司 | 一种文字识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022070422A1 (ja) | 2022-04-07 |
WO2022070422A1 (ja) | 2022-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765763B (zh) | 语音识别文本的纠错方法、装置、计算机设备和存储介质 | |
US11636264B2 (en) | Stylistic text rewriting for a target author | |
US11150875B2 (en) | Automated content editor | |
JP3998668B2 (ja) | 形態素解析装置、方法及びプログラム | |
US11276394B2 (en) | Method for re-aligning corpus and improving the consistency | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
JP6331756B2 (ja) | テストケース生成プログラム、テストケース生成方法、及びテストケース生成装置 | |
WO2014036827A1 (zh) | 一种文本校正方法及用户设备 | |
JP2019204214A (ja) | 学習装置、学習方法、プログラム及び推定装置 | |
JP2020060970A (ja) | コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム | |
US20210342539A1 (en) | Method and apparatus for recognizing medical entity in medical text | |
KR20180036074A (ko) | 텍스트 필터링 장치 및 방법 | |
JP7430274B2 (ja) | 計算機システム及び文字認識方法 | |
JP6261669B2 (ja) | クエリ校正システムおよび方法 | |
JP6473112B2 (ja) | 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム | |
JP4735958B2 (ja) | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム | |
WO2021166231A1 (ja) | シナリオ生成装置、シナリオ生成方法、及びコンピュータ読み取り可能な記録媒体 | |
US20220138434A1 (en) | Generation apparatus, generation method and program | |
KR102668118B1 (ko) | 자연어 기반의 비디오 검색을 위한 학습 장치 및 학습 방법 | |
US11537794B2 (en) | Learning device, learning method, computer program product, and information processing system | |
JP2023010430A (ja) | 計算機及び文字認識方法 | |
US11423943B2 (en) | Method and apparatus for generating a video based on a process | |
US20240013407A1 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
US20220092260A1 (en) | Information output apparatus, question generation apparatus, and non-transitory computer readable medium | |
WO2023084704A1 (ja) | 画像処理装置、方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7430274 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |