JP2019139771A - 文字形状特徴の抽出方法、文字形状特徴の抽出装置、電子機器、及び記憶媒体 - Google Patents
文字形状特徴の抽出方法、文字形状特徴の抽出装置、電子機器、及び記憶媒体 Download PDFInfo
- Publication number
- JP2019139771A JP2019139771A JP2019019457A JP2019019457A JP2019139771A JP 2019139771 A JP2019139771 A JP 2019139771A JP 2019019457 A JP2019019457 A JP 2019019457A JP 2019019457 A JP2019019457 A JP 2019019457A JP 2019139771 A JP2019139771 A JP 2019139771A
- Authority
- JP
- Japan
- Prior art keywords
- character shape
- feature extraction
- shape feature
- character
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
Neural Network)やLSTM(Long Short-Term Memory)等のモデルにより実現される。しかし、本発明を行う間に、これらのモデルの複雑度が高いため、文字形状特徴の取得性能が低いことが分かった。
処理データからノイズを除去する。ノイズは、URL、電子メールアドレス、形的に"<"または">"等ウェブページにより導入された記号を含む。また、ウェブページによって導入される"<html>"、"<title>"及び"<body>"などのxmlのタグを除去し、タグ間のテキストのみが保持される。
pythonライブラリを用いて、NLTKにより処理データを文に分割し、更に、単語に分割する。
(2)で分割された単語から、モデル単語として、30000個の異なる単語を選択する。各単語には一意的なIDを割り当てる。30000個の単語において、第1の単語にIDとして1が割り当てられ、第2の単語にIDとして2が割り当てられ、以下は類推する。また、0を未知の単語のIDである。そして、分割された単語に対応するIDで置き換える。
Claims (10)
- 処理データに対して予備処理を行うステップと、
所定のサイズを有する文字形状特徴抽出窓を取得するステップと、
前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップと、を含み、
前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする文字形状特徴の抽出方法。 - 前記処理データに対して予備処理を行うステップは、
前記処理データからノイズを除去するステップと、
ノイズが除去された処理データを1つまたは複数の文に分割し、分割された文を1つまたは複数の単語に分割するステップと、
前記複数の単語にIDを割り当てるステップと、を含むことを特徴とする請求項1に記載の文字形状特徴の抽出方法。 - 前記複数の単語にIDを割り当てるステップは、
前記複数の単語からV個の異なる単語を選択し、前記V個の異なる単語を用いてモデルライブラリを構成するステップであって、Vは自然数である、ステップと、
前記複数の単語のうちの、前記モデルライブラリにある第1の目標単語に第1のIDを割り当てるステップであって、異なる第1の目標単語は異なるIDを有する、ステップと、
前記モデルライブラリにない第2の目標単語に前記第1のIDと異なる第2のIDを割り当てるステップであって、前記第2の目標単語は前記モデルライブラリにない単語を含み、すべての第2のIDは同じである、ステップと、を含むことを特徴とする請求項2に記載の文字形状特徴の抽出方法。 - 前記所定のサイズを有する文字形状特徴抽出窓を取得するステップは、
予め設定された単語の先頭からP個の文字をプレフィックス情報として抽出し、前記予め設定された単語の末尾からS個の文字をサフィックス情報として抽出するステップであって、P、Sは自然数である、ステップと、
前記プレフィックス情報と前記サフィックス情報を用いて、前記文字形状特徴抽出窓を構成するステップと、を含むことを特徴とする請求項2または3に記載の文字形状特徴の抽出方法。 - 前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップは、
アルファベットの大文字と小文字より構成された文字集合の中から、C個の異なる文字を既知の文字として選択し、前記C個の異なる文字にそれぞれN次元の表示ベクトルを付与するステップであって、Nは自然数である、ステップと、
複数の単語のうちの第3の目標単語における、前記既知の文字にない第1の目標文字に表示ベクトルを割り当てるステップであって、前記第1の目標文字に割り当てられた表示ベクトルは前記C個の文字に付与された表示ベクトルとは異なる、ステップと、
前記先頭からP個の文字の表示ベクトル及び前記末尾からS個の文字の表示ベクトルを取得し、(P+S)*N次元ベクトルである第1のベクトルを形成するステップと、
(P+S)*N行、F列を含む加重マトリックスMを取得するステップであって、Fは自然数である、ステップと、
前記第1のベクトルと前記加重マトリックスとを乗算して、F次元の文字の形状特徴を取得するステップと、を含むことを特徴とする請求項4に記載の文字形状特徴の抽出方法。 - 前記文字の形状特徴と取得された単語のベクトル特徴とを併合し、合併されたベクトルを学習モデルの入力とするステップと、
前記学習モデルをトレーニングし、前記加重マトリックスM及び/又は前記表示ベクトルの重みを更新するステップと、を含むことを特徴とする請求項5に記載の文字形状特徴の抽出方法。 - 処理データに対して予備処理を行う予備処理モジュールと、
所定のサイズを有する文字形状特徴抽出窓を取得する取得モジュールと、
前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出する抽出モジュールと、を含み、
前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする文字形状特徴の抽出装置。 - 前記抽出モジュールは、単語のベクトル特徴、加重マトリックスM及び表示ベクトルを取得し、
前記文字形状特徴の抽出装置は、
前記文字の形状特徴と取得された単語のベクトル特徴とを合併し、合併されたベクトルを学習モデルの入力とする合併モジュールと、
前記学習モデルをトレーニングし、前記加重マトリックスM及び/又は前記表示ベクトルの重みを更新するトレーニングモジュールと、を更に含むことを特徴とする請求項7に記載の文字形状特徴の抽出装置。 - プロセッサおよびメモリを備え、前記メモリにコンピュータプログラム指令が記憶される電子機器において、前記コンピュータプログラム指令が前記プロセッサにより実行される時に、前記プロセッサに、
処理データに対して予備処理を行うステップと、
所定のサイズを有する文字形状特徴抽出窓を取得するステップと、
前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップと、を実行させ、
前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする電子機器。 - コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体はコンピュータプログラムを記憶しており、前記コンピュータプログラムがプロセッサによって実行された時に、前記プロセッサに、
処理データに対して予備処理を行うステップと、
所定のサイズを有する文字形状特徴抽出窓を取得するステップと、
前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップと、を実行させ、
前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810128376.9A CN110134935B (zh) | 2018-02-08 | 2018-02-08 | 一种提取字形特征的方法、装置及设备 |
CN201810128376.9 | 2018-02-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019139771A true JP2019139771A (ja) | 2019-08-22 |
JP6702456B2 JP6702456B2 (ja) | 2020-06-03 |
Family
ID=67567356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019019457A Active JP6702456B2 (ja) | 2018-02-08 | 2019-02-06 | 文字形状特徴の抽出方法、文字形状特徴の抽出装置、電子機器、及び記憶媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6702456B2 (ja) |
CN (1) | CN110134935B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330474A (zh) * | 2021-10-20 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备以及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110855635B (zh) * | 2019-10-25 | 2022-02-11 | 新华三信息安全技术有限公司 | Url识别方法、装置及数据处理设备 |
CN111488423B (zh) * | 2020-03-05 | 2020-12-22 | 北京一览群智数据科技有限责任公司 | 一种基于索引数据的自然语言处理方法和系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3792882B2 (ja) * | 1998-03-17 | 2006-07-05 | 株式会社東芝 | 感情生成装置及び感情生成方法 |
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
JP3635230B2 (ja) * | 2000-07-13 | 2005-04-06 | シャープ株式会社 | 音声合成装置および方法、情報処理装置、並びに、プログラム記録媒体 |
JP2002297589A (ja) * | 2001-03-30 | 2002-10-11 | Ricoh Co Ltd | 未知語収集方法 |
JP2010140107A (ja) * | 2008-12-09 | 2010-06-24 | Nippon Telegr & Teleph Corp <Ntt> | 未知語登録方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
CN105068989B (zh) * | 2015-07-23 | 2018-05-04 | 中国测绘科学研究院 | 地名地址提取方法及装置 |
-
2018
- 2018-02-08 CN CN201810128376.9A patent/CN110134935B/zh active Active
-
2019
- 2019-02-06 JP JP2019019457A patent/JP6702456B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330474A (zh) * | 2021-10-20 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备以及存储介质 |
CN114330474B (zh) * | 2021-10-20 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110134935B (zh) | 2023-08-11 |
CN110134935A (zh) | 2019-08-16 |
JP6702456B2 (ja) | 2020-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102557681B1 (ko) | 시계열 지식그래프 생성 방법, 장치, 기기 및 매체 | |
JP2021190087A (ja) | テキスト認識処理方法、装置、電子機器及び記憶媒体 | |
JP6702456B2 (ja) | 文字形状特徴の抽出方法、文字形状特徴の抽出装置、電子機器、及び記憶媒体 | |
JP7269972B2 (ja) | 事前トレーニングのセマンティックモデルに基づくモデル改良方法及び装置 | |
JP2021103569A (ja) | セマンティック処理方法、装置、電子機器及び媒体 | |
CN109543165B (zh) | 基于循环卷积注意力模型的文本生成方法及装置 | |
US11915484B2 (en) | Method and apparatus for generating target re-recognition model and re-recognizing target | |
JP7246437B2 (ja) | 対話感情スタイル予測方法、装置、電子機器、記憶媒体及びプログラム | |
WO2021015936A1 (en) | Word-overlap-based clustering cross-modal retrieval | |
JP7177878B2 (ja) | 画像処理方法、画像処理装置、電子機器及び記憶媒体 | |
JP7203897B2 (ja) | 文書レイアウト解析方法、装置、電子機器及び記憶媒体 | |
CN105683957A (zh) | 样式表推测性预加载 | |
JP2019139772A (ja) | 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体 | |
JP2020064624A (ja) | サブワード単位の分割方法、装置及びコンピュータ読み取り可能な記憶媒体 | |
CN111859907B (zh) | 文字纠错方法、装置、电子设备及存储介质 | |
JP6743942B2 (ja) | 語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
CN111967591A (zh) | 神经网络自动剪枝方法、装置及电子设备 | |
CN116383521B (zh) | 主题词挖掘方法及装置、计算机设备及存储介质 | |
CN111142871B (zh) | 一种前端页面开发系统、方法、设备、介质 | |
CN114548102A (zh) | 实体文本的序列标注方法、装置及计算机可读存储介质 | |
CN111783435A (zh) | 共享词汇的选择方法、装置及存储介质 | |
CN114565751A (zh) | Ocr识别模型训练方法、ocr识别方法及相关装置 | |
US10706215B2 (en) | Producing formula representations of mathematical text | |
CN111767710A (zh) | 印尼语的情感分类方法、装置、设备及介质 | |
CN111914882A (zh) | 支持向量机的生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200407 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200420 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6702456 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |