JP7268119B2 - テキスト内の数値コンテンツの誤り訂正方法、装置及び電子機器 - Google Patents

テキスト内の数値コンテンツの誤り訂正方法、装置及び電子機器 Download PDF

Info

Publication number
JP7268119B2
JP7268119B2 JP2021187369A JP2021187369A JP7268119B2 JP 7268119 B2 JP7268119 B2 JP 7268119B2 JP 2021187369 A JP2021187369 A JP 2021187369A JP 2021187369 A JP2021187369 A JP 2021187369A JP 7268119 B2 JP7268119 B2 JP 7268119B2
Authority
JP
Japan
Prior art keywords
target
content
numerical
type
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021187369A
Other languages
English (en)
Other versions
JP2022024093A (ja
Inventor
チェンフイ リー
タン フー
ヨンフォン チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022024093A publication Critical patent/JP2022024093A/ja
Application granted granted Critical
Publication of JP7268119B2 publication Critical patent/JP7268119B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本出願はコンピュータ技術分野に関し、具体的には、自然言語処理、深層学習などの人工知能技術分野に関し、特に、テキスト内の数値コンテンツの誤り訂正方法、装置、電子機器、記憶媒体に関する。
ユーザは文書作成を行う場合、通常、不注意や文書作成規範に対する認識不足により、入力された数値が誤ったり、使い方が不適切だったりする問題、例えば、文書作成の合法性のエラー、数値コンテンツ(論理)のエラーなどを引き起こす。ここで、推理と計算に関与する数値コンテンツに対して誤り訂正を行うことは、現在研究のかなめである。
本出願は、数値タイプの誤り訂正におけるテキスト内の数値コンテンツの誤り訂正方法、装置及び電子機器を提供する。
本出願の第1の態様によれば、テキスト内の数値コンテンツの誤り訂正方法を提供し、処理対象のターゲットテキストを取得するステップと、前記ターゲットテキストに含まれる元の数値コンテンツを決定するステップと、各前記元の数値コンテンツに対応するターゲットタイプを決定するステップと、各前記ターゲットタイプに対応する誤り訂正方式に基づいて、対応する各前記元の数値コンテンツに対して誤り訂正を行うステップと、を含む。
本出願の第2の態様によれば、テキスト内の数値コンテンツの誤り訂正装置を提供し、処理対象のターゲットテキストを取得する第1の取得モジュールと、前記ターゲットテキストに含まれる元の数値コンテンツを決定する第1の決定モジュールと、各前記元の数値コンテンツに対応するターゲットタイプを決定する第2の決定モジュールと、各前記ターゲットタイプに対応する誤り訂正方式に基づいて、対応する各前記元の数値コンテンツに対して誤り訂正を行う第1の処理モジュールと、を含む。
本出願の第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが上記の1様態の実施例に記載のテキスト内の数値コンテンツの誤り訂正方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本出願の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、それにコンピュータプログラムが記憶され、前記コンピュータ命令は、前記コンピュータに上記の一様態の実施例に記載のテキスト内の数値コンテンツの誤り訂正方法を実行させる。
本出願の第5の態様によれば、コンピュータプログラム製品を提供し、前記コンピュータプログラムはプロセッサによって実行される場合、上記の一様態の実施例に記載のテキスト内の数値コンテンツの誤り訂正方法を実現する。
本出願の第6の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、上記の一様態の実施例に記載のテキスト内の数値コンテンツの誤り訂正方法を実現する。
なお、この部分に記載されているコンテンツは、本出願の実施例の主要なまたは重要な特徴を特定することを意図しておらず、本出願の範囲を限定することも意図していないことを理解されたい。本出願の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本出願の実施例によって提供されるテキスト内の数値コンテンツの誤り訂正方法のフローチャートである。 本出願の実施例によって提供されるカウントタイプの数値に対して誤り訂正を行うフローチャート。 本出願の実施例によって提供される金額タイプの数値に対して誤り訂正を行うフローチャートである。 本出願の実施例によって提供される誤り訂正された数値コンテンツを表示するフローチャートである。 本出願の実施例によって提供される別のテキスト内の数値コンテンツの誤り訂正方法のフローチャートである。 本出願の実施例によって提供されるテキスト内の数値コンテンツの誤り訂正装置の概略構成図である。 本出願の実施例に係るテキスト内の数値コンテンツの誤り訂正方法を実現するためのブロック図である。
発明を実施するための形式
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
AI(Artificial Intelligence、人工知能)人工知能はコンピュータに人間のある思惟過程と知能行為(学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術は一般にセンサー、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、知識スペクトル技術などのいくつかの方向を含む。
深層学習は機械学習分野における新しい研究の方向であり、機械学習がその最初の目標-人工知能にいっそう接近するように、機械学習に導入され、人工知能技術の発展に伴い、NLP(Natural Language Processing、自然言語処理)技術、深層学習技術を使用して、テキスト誤り訂正を行う方式がますます広くなっており、NLPは科学分野と人工知能分野の重要な方向であり、人間とコンピュータの間で自然言語を利用して効果的に通信することを実現できる様々な理論と方法を研究している。深層学習はサンプルデータの内的な規則と表示レベルを学習するものであり、これらの学習プロセスで取得された情報は文字、画像、音声などのデータの解釈に大いに役立ち、その最終的な目標は機械が人間のように分析学習能力を持ち、文字、画像、音声などのデータを認識できるようにすることである。
なお、ユーザは文書作成を行う場合、通常、不注意や文書作成規範に対する認識不足により、入力された数値コンテンツが誤たたり、使い方が不適切だったりする問題を引き起こす。ユーザの文書作成時のエラーは、主に日付合法性エラー(日付が存在しない、日付期間が間違っている)、数値エラー(金額のフォーマットが間違っている、大文字と小文字が一致しない)があり、その他、中国語数値には規範があり、ユーザが使用する場合、数値範囲の使用が不適切であり、アラビア数字と中国語数字の併用が不適切であるなどのエラーが普遍的に存在する。したがって、テキストの数値の誤り訂正を行う方法が必要とされ、数値の正確さを向上させ、ユーザ体験を改善する。
関連技術の誤り訂正技術は、間違ったフォーマットの訂正に留まり、より重要な数値コンテンツに対して、推理及び計算に関連しているので、規則に基づく方法であれ、言語モデルに基づく方法であれ、誤り訂正能力が不足する。従って、推理と計算に関与する数値コンテンツに対して誤り訂正をいかに行うかは、現在研究のかなめである。
これにより、本出願の実施例はテキスト内の数値コンテンツの誤り訂正方法、装置及び電子機器を提供する。本出願の実施例で、数値コンテンツのタイプに基づいて数値コンテンツの誤り訂正を実現し、数値のフォーマットに対する誤り訂正だけに限定されず、数値誤り訂正能力を向上させ、ひいては誤り数値の検出と訂正のリコール率を向上させ、ユーザの使用体験を改善した。
以下、図面を参照しながら本出願の実施例のテキスト内の数値コンテンツの誤り訂正方法、装置及び電子機器を説明する。
図1は本出願の実施例によって提供されるテキスト内の数値コンテンツの誤り訂正方法のフローチャートである。
なお、本出願の実施例のテキスト内の数値コンテンツの誤り訂正方法の実行主体は、電子機器であってもよく、電子機器は、コンピュータ、モバイル端末であってもよいが、これに限定されず、モバイル端末は、パーソナルコンピュータ、スマートフォン、IPADなどであってもよいが、これに限定されない。
図1に示すように、当該テキスト内の数値コンテンツの誤り訂正方法は以下のステップ101~ステップ104を含む、
ステップ101、処理対象のターゲットテキストを取得する。
本出願の実施例では、誤り訂正対象の数値コンテンツが存在するテキストを処理対象のターゲットテキストと呼び、当該ターゲットテキストは一文であってもよく、または一つの文章であってもよく、ターゲットテキストの長さ、タイプは限定されない。
ステップ102、ターゲットテキストに含まれる元の数値コンテンツを決定する。
処理対象のターゲットテキストを取得した後、その中の数値コンテンツに対して誤り訂正を行うことを容易にするために、ターゲットテキストに含まれる1つまたは複数の元の数値コンテンツを抽出する。
例えば、ターゲットテキストは「高校3年生のすべては学校が開催した研究に参加し、参加時間は2020年3月1日から2020年5月31日までの3ヶ月であり、研究終了後、関連する試験を行う」である場合、その中の元の数値コンテンツが「2020年3月1日から2020年5月31日までの3ヶ月」であり、当該元の数値コンテンツを抽出して、後続の誤り訂正を行う。
ステップ103、各元の数値コンテンツに対応するターゲットタイプを決定する。
具体的に、各元の数値コンテンツを決定した後、各元の数値コンテンツの特徴に基づいて対応するターゲットタイプを決定することができる。特徴は数値の単位(例えば「秒」、「米」など)であってもよく、特定の記号(例えば「¥」、「%」など)であってもよく、数値のタイプは金額タイプの数値、日付タイプの数値、時間数値、及び長さ数値などに分割されてもよく、絶対値(コンテキストに関連しない数値)、関連数値(コンテキストに関連する数値、例えばカウントタイプの数値)に分割されてもよい。コンテキストには文字や数値コンテンツが含まれる。
上記のように、ターゲットタイプを決定する場合は、各元の数値コンテンツの特徴に基づいて決定する。その他、本出願の実施例では、元の数値コンテンツ-ターゲットタイプモデルという深層学習モデルを予めトレーニングすることができ、さらに取得された元の数値コンテンツを当該モデルに入力すると、対応するターゲットタイプを出力することができる。
例えば、元の数値コンテンツが「30秒」である場合、対応するターゲットタイプは時間タイプの数値であり、元の数値コンテンツが「59元」の場合、対応するターゲットタイプは金額タイプの数値である。
S104、各ターゲットタイプに対応する誤り訂正方式に基づいて、対応する各元の数値コンテンツに対して誤り訂正を行う。
具体的に、異なるターゲットタイプの数値コンテンツは異なる誤り訂正方式に対応してもよく、各ターゲットタイプは一種の誤り訂正方式に対応するため、各元の数値コンテンツに対応するターゲットタイプを取得した後、各ターゲットタイプに対応する誤り訂正方式を取得でき、誤り訂正方式に基づいて対応する元の数値コンテンツに対して誤り訂正を行う。例えば、時間タイプの数値の誤り訂正方式に基づいて「30秒」という数値コンテンツに対して誤り訂正を行う。
ターゲットテキストにおいては元の数値コンテンツが1つだけ存在する可能性があり、2つまたは複数の元の数値コンテンツが存在する可能性もある。
ターゲットテキストにおいて1つだけの数値が存在するまたは複数の絶対値が存在する場合、当該数値コンテンツが属するターゲットタイプに対応する法定の作成形式に基づいて、当該数値コンテンツに対して作成の合法性チェックと訂正を行う。例えば、元の数値コンテンツが「0219年」である場合、対応するターゲットタイプは日付であり、日付に対応する法定の作成形式に基づいて当該数値コンテンツに対して訂正を行い、訂正された数値コンテンツは「2019年」である。
ターゲットテキストにおいて2つまたは複数の元の数値コンテンツが存在する場合、元の数値コンテンツの間に関連がある場合、作成の合法性チェックと訂正を行うだけでなく、関連関係に基づいて数値コンテンツの正確性に対してチェックと訂正を行うことができる。例えば、元の数値コンテンツが「2020年3月1日から2020年6月1日までの3ヶ月である」である場合、対応するターゲットタイプは日付であり、日付の法定の作成形式及び3つの数値の間の関連関係に基づいて、当該元の数値コンテンツに対して訂正を行い、訂正された数値コンテンツは「2020年3月1日から2020年5月1日までの3ヶ月である」である。
本出願の実施例のテキスト内の数値コンテンツの誤り訂正方法は、元の数値コンテンツに対応するターゲットタイプに基づいて、元の数値コンテンツに対応する誤り訂正方式を決定し、誤り訂正方式に基づいて、対応する数値コンテンツに対して誤り訂正を行い、それによって数値コンテンツに対応する誤り訂正を実現し、数値フォーマットの誤り訂正だけに限定されず、数値コンテンツに対してロジック誤り訂正をさらに行い、数値誤り訂正能力を向上させ、ひいては誤り数値の検出と訂正のリコール率を向上させる。
ターゲットタイプを決定する場合の信頼性を保障するために、本出願の一実施例では、上記各元の数値コンテンツに対応するターゲットタイプを決定する場合、指定されたキーワードに基づいて、ターゲットテキストをトラバースして、ターゲットテキストに含まれる元の数値コンテンツを決定することができる。及び/又は、指定されたテンプレートに基づいて、ターゲットテキストをトラバースして、指定されたテンプレートと一致するターゲットテキストに含まれる元の数値コンテンツを決定する。
テンプレートは、数値コンテンツテンプレートと正則テンプレートを含むことができ、当該テンプレートとキーワードは、異なる適用シーンにおける元のデータに適応するように、ユーザによって柔軟に設定されてもよい。
具体的に、処理対象のターゲットテキストを取得した後、ターゲットテキストをトラバースすることができ、ターゲットテキストに含まれる指定されたキーワード及び/又はターゲットテキストが指定されたテンプレートを満たす場合、キーワードまたはテンプレートが存在するテキストセグメントを抽出し、抽出したものは元の数値コンテンツである。
なお、本出願の実施例は、ターゲットテキストから元の数値コンテンツを抽出する場合、数値コンテンツを抽出できる限り、任意の方式によって抽出してもよい。キーワード、数値コンテンツテンプレートまたは正則テンプレートに基づく数値コンテンツの抽出方式であってもよいが、これに限定されない。
これにより、指定されたキーワード及び/又はテンプレートに基づいて、ターゲットテキストに含まれる元の数値コンテンツを決定し、キーワードまたはテンプレートはユーザによって指定されたものであってもよく、ユーザが十分に適用シーンと併せて柔軟に設定できるようにして、信頼性を保障し、異なる業務のニーズをよりよく満たす。
上記元の数値コンテンツに対して誤り訂正を行う場合、2つまたは複数の元の数値コンテンツを抽出した場合、その中の各元の数値コンテンツの間に関連がある可能性があり、例えば、元の数値のうちの1つは他の元の数値に対して四則演算をして取得されたものである。この場合、各元の数値コンテンツに対して作成合法性に対して誤り訂正を行う必要があるだけでなく、数値自身のコンテンツに対して誤り訂正を行う必要がある。例えば、他の元の数値に対して四則演算をして取得された結果をまず計算し、その後、元の数値のうちの1つの元の数値が当該結果と一致するか否かを判断し、一致しない場合、誤り訂正を行う。または、元の数値コンテンツとコンテキストコンテンツとの間に関連がある可能性があり、すなわち当該元の数値はテキスト前後のロジックに基づいて推理されたものであり、この場合、各元の数値コンテンツに対して作成合法性に対して誤り訂正を行う必要があるだけでなく、自然言語処理技術に基づいてコンテキストコンテンツに対して解析を行って、解析後の結果を取得する必要があり、元の数値が当該結果と一致しない場合、誤り訂正を行う。
なお、2つまたは複数の元の数値コンテンツに対して誤り訂正を行う必要がある場合、各数値コンテンツにおけるデータフォーマットが異なる可能性があり、当該場合、誤り数値を検出して数値コンテンツ誤り訂正のリコール率を向上させることを容易にするために、各元の数値コンテンツに対して正規化処理を行うことができる。
すなわち、本出願の一実施例では、ターゲットテキストにN個の元の数値コンテンツが含まれ、Nは1より大きい整数であり、上記ステップ103の後は、M個の元の数値コンテンツに対応するターゲットタイプが同じである場合、M個の元の数値コンテンツに対応するターゲットタイプに関連付けられたデータフォーマットに基づいて、M個の元の数値コンテンツに対して正規化処理を行うステップであって、MはN以下の正整数であるステップを含むことができる。
例えば、M個の元の数値コンテンツに対応するターゲットタイプがすべて日付タイプである場合、M個の元の数値コンテンツを「xxxx年xx月xx日」、「xxxx年xx月」または「xx月xx日」のフォーマットに正規化し、時間間隔を示す「x年」、「xヶ月」、「x日間」、「x日」の元の形式を保留できる。その後、日付タイプに対応する誤り訂正方式に基づいて、各元の数値コンテンツに対して誤り訂正を行う。
これにより、M個の元の数値コンテンツに対して正規化処理を行った後、誤り訂正を行い、規範性を向上させ、したがって誤り訂正のリコール率を十分に向上させる。
ターゲットテキストに関連数値のみが存在する場合、コンテキストコンテンツに対して解析または他の数値に対して推理計算を行う必要があり、それによって関連数値に対して誤り訂正を行う。例えば、元の数値コンテンツにカウントタイプの数値が含まれる場合、カウントタイプの数値と開始カウントポイントに対して終了カウントポイントに対して誤り訂正を行う必要がある。
すなわち、図2に示すように、本出願の一実施例では、ターゲットテキストにカウントタイプの数値が含まれ、この場合、上記ステップ104は以下のステップ201~ステップ203を含むことができる。
ステップ201、カウントタイプの数値に対応する開始カウントポイント及び終了カウントポイントを決定する。
ターゲットテキストには、開始カウントポイントと終了カウントポイントが明確に記載されている可能性があり、明確に記載されていない可能性もあり、明確に記載されていない場合、コンテキストに基づいて推理して開始カウントポイントと終了カウントポイントを決定する必要がある。
ステップ202、終了カウントポイント及び開始カウントポイントに基づいて、ターゲットカウント値を決定する。
例えば、終了カウントポイントと開始カウントポイントの差を作って、取得された差はターゲットカウント値である。
ステップ203、ターゲットカウント値がカウントタイプの数値と一致しない場合、カウントタイプの数値をターゲットカウント値に置き換える。
具体的に、ターゲットカウント値を取得した後、ターゲットカウント値がカウントタイプの数値と一致するか否かを判断し、一致しない場合、ターゲットカウント値をカウントタイプの数値に置き換え、カウントタイプの数値の誤り訂正を実現する。置き換える際に、直接置き換えてもよく、訂正記号を付けて置き換えてもよく、または、他の置き換え方式を採用し、置き換え後の数値コンテンツを表示することもできる。
例えば、元の数値コンテンツは「座席番号が5から8まで、合計3つの席である」であり、カウントタイプの数値が3であり、終了カウントポイントが6であり、開始カウントポイントが5であり、終了カウントポイントと開始カウントポイントに基づいてターゲットカウント値が4であると決定し、カウントタイプの数値3と一致しない。そのため、ターゲットカウント値4をカウントタイプの数値3に置き換え、「座席番号が5から8まで、合計4つの席である」という訂正された数値コンテンツを取得する。
上記のように、ターゲットテキストにカウントタイプの数値が含まれる場合、カウントタイプの数値に対して誤り訂正を行う。それ以外、テキストに開始カウントポイントまたは終了カウントポイントが明確に記載されている場合、開始カウントポイントまたは終了カウントポイントに対して誤り訂正を行うことができる。
例えば、元の数値コンテンツは「2020年3月1日から2020年6月1日までの3ヶ月である」である場合、計算して2020年3月1日から2020年6月1日までの間の時間間隔が3ヶ月と一致しないとの結果を得たため、2020年3月1からの3ヶ月後の日付を計算して2020年5月31日となり、2020年6月1日を2020年5月31日に訂正し、すなわち訂正された数値コンテンツは「2020年3月1日から2020年5月31日までの3ヶ月である」である。なお、数値範囲を示す2つの数値の間では、接続するための記号として「~」または「-」だけを使用し、数値範囲の誤り訂正を行う場合、範囲を示す2つの数値の間の記号をチェックし、規定に適合していない場合、訂正を行う。
図3に示すように、本出願の一実施例では、ターゲットテキストには少なくとも2つの連続した金額タイプの数値が含まれ、この場合、上記ステップS104、以下のステップ301~ステップ303を含むことができ、
ステップ301、少なくとも2つの連続した金額タイプの数値に対して正規化処理を行って、フォーマットが同じである少なくとも2つの金額タイプの数値を取得する。
当該実施例では、金額タイプの数値のフォーマットをアラビア数値フォーマットまたは中国語数値フォーマットに統一的に変換してもよい。変換方式は、中国語数値からアラビア数値フォーマットへの変換、アラビア数字から中国語数値フォーマットへの変換、アラビア数値と中国語数値がアラビア数値に混ざる変換、アラビア数値と中国語数値が中国語数値に混ざる変換、アラビア数値と中国語数値の混用の規範化(国標数字の使い方によって規範化する)であってもよいが、これに限定されない。
ステップ302、フォーマットが同じである少なくとも2つの金額タイプの数値が一致しない場合、少なくとも2つの連続した金額タイプの数値のうちの1番目の金額タイプの数値に基づいて、残りの金額タイプの数値に対応するターゲット値を決定する。
具体的に、中国語数値フォーマットまたはアラビア数値フォーマットに規範化された少なくとも2つの連続した金額が一致するか否かを判断でき、一致しない場合、1番目の金額タイプの数値に基づいて、残りの金額タイプの数値に対応するターゲット値を決定する。
ステップ303、残りの金額タイプの数値をターゲット値に置き換える。
具体的に、置き換える場合、直接置き換えてもよく、訂正記号を付けて置き換えてもよく、または、他の置き換え方式を採用し、置き換え後の数値コンテンツを表示することもでる。
例えば、元の数値コンテンツは「プロジェクト総金額は¥43,6382元である(大文字人民元の肆拾参万捌仟陸百参拾弐元ちょうど)」である場合、中国語数値の金額数値をアラビア数字に正規化にした後、「プロジェクト総金額は¥43,6382元である(¥43,8632元)」になる、比較によって2つのアラビア数字が一致しないと分かり、そのため、1番目の数値¥43,6382元に基づいて次の数値が¥43,6382であると決定し、訂正された次のアラビア数字を中国語数値に変換し、当該数値コンテンツを「プロジェクト総金額は¥43,6382元である(大文字人民元の肆拾参万陸仟参百捌拾弐元ちょうど)」に訂正する。
これにより、推理と計算によってカウントタイプの数値及び金額タイプの数値の誤り訂正を実現し、誤り訂正のリコール率を向上させることができる。
上記元の数値コンテンツに対して誤り訂正を行う場合、音声案内、文字案内の方式によってユーザに誤り訂正を行うように注意を与え、さらに、誤り訂正された数値コンテンツを対応する位置に直接に表示してもよく、ユーザの体験を改善する。本出願の一実施例では、図4に示すように、上記ステップS104では、対応する各元の数値コンテンツに対して誤り訂正を行うステップは以下のステップ401~ステップ402を含むことができる。
ステップ401、ターゲットテキストの元の数値コンテンツに対応する第1の表示モードに基づいて、誤り訂正された数値コンテンツに対応する第2の表示モードを決定する。
第1の表示方式は元の数値コンテンツの表示方式であり、第2の表示方式は第1の表示方式とは異なる。
ステップ402、第2の表示モードに基づいて、誤り訂正された数値コンテンツを元の数値コンテンツが存在する位置に追加する。
つまり、誤り訂正された数値コンテンツを、元の数値コンテンツと異なる表示方式によって存在する位置に追加する。元の数値コンテンツが誤り訂正された数値コンテンツとの異なる表示を実現し、ユーザが検索しやすい。
例えば、誤り訂正された数値コンテンツをハイライト表示し、または特殊なフォント形式、または訂正モードなどでターゲットテキスト内に追加する。
これにより、元の数値コンテンツに対する誤り訂正を実現するだけでなく、誤り訂正された数値コンテンツを異なる表示方式でターゲットテキスト内に適切に追加し、ユーザの体験を改善した。
上記のように、ユーザによって作成されたターゲットテキストの元の数値コンテンツに対して誤り訂正を行うことを説明した。実際の適用では、ユーザがいくつかの元の数値コンテンツに対して誤り訂正を行わない可能性があり、この場合、ユーザの命令に基づいて、指定されたセグメントを含む数値コンテンツに対して、ユーザのニーズに応じて誤り訂正を行わなくてもよく、誤り訂正フローをそのまま終了するか、または次の数値コンテンツの誤り訂正を行うことができる。
上記の説明から分かるように、本出願の一実施例では、図5に示すように、テキスト内の数値コンテンツの誤り訂正方法は以下のステップ501~ステップ5011を含むことができ、
ステップ501、処理対象のターゲットテキストが空でないか否かを判断し、空である場合、ステップ502を実行する。そうではない場合、終了する。
ステップ502、処理対象のターゲットテキストを取得する。
ステップ503、指定されたキーワード及び/又はテンプレートに基づいて、ターゲットテキストをトラバースして、ターゲットテキストに含まれる元の数値コンテンツを決定する。
ステップ504、元の数値コンテンツが誤り訂正条件を満たすか否かを判断し、満たす場合、ステップ505を実行する。そうではない場合、終了する。
誤り訂正条件を満たす数値を誤り訂正器に入力して誤り訂正を行い、誤り訂正器の入力要件を満たす数値タイプが存在しない場合、終了する。
ステップ505、誤り訂正器を開始して誤り訂正を行う。
ステップ506、数値フォーマットに対して正規化処理を行う。
ステップ507、推理計算が必要であるか否かを判断し、必要である場合、ステップ508を実行する。そうではない場合、ステップ509を実行する。
ステップ508、ロジック誤り訂正を行う。
ステップ509、作成合法性誤り訂正を行う。
ステップ5010、終了条件を満たすか否かを判断し、満たす場合、ステップ5012を実行する。そうではない場合、ステップ5011を実行する。
誤り訂正された数値コンテンツを表示する必要がない場合、終了条件は満たされる。
ステップ5011、誤り訂正された数値コンテンツを追加する。
本出願の実施例の数値コンテンツ誤り訂正方案によれば、元の数値コンテンツに対応するターゲットタイプに基づいて、元の数値コンテンツに対応する誤り訂正方式を決定し、誤り訂正方式に基づいて、対応する数値コンテンツに対して誤り訂正を行い、数値コンテンツに対応する誤り訂正を実現する。これにより、数値フォーマットの誤り訂正だけに限定されず、数値コンテンツに対してロジック誤り訂正をさらに行い、数値誤り訂正能力を向上させ、ひいては誤り数値の検出と訂正のリコール率を向上させ、且つ、元の数値コンテンツの抽出と推理規則はすべて配置可能であり、配置可能性がよく、ユーザが適用シーンと十分に併せて柔軟に配置できるようにして、異なる業務のニーズをよりよく満たす。
本出願の実施例はテキスト内の数値コンテンツの誤り訂正装置をさらに提供し、図6は本出願の実施例によって提供されるテキスト内の数値コンテンツの誤り訂正装置の概略構成図である。
図6に示すように、当該テキスト内の数値コンテンツの誤り訂正装置600は、第1の取得モジュール610、第1の決定モジュール620、第2の決定モジュール630及び第1の処理モジュール640を含む。
第1の取得モジュール610は処理対象のターゲットテキストを取得する。第1の決定モジュール620は前記ターゲットテキストに含まれる元の数値コンテンツを決定する。第2の決定モジュール630は各前記元の数値コンテンツに対応するターゲットタイプを決定する。第1の処理モジュール640は各前記ターゲットタイプに対応する誤り訂正方式に基づいて、対応する各前記元の数値コンテンツに対して誤り訂正を行う。
本出願の一実施例では、前記第1の決定モジュール620は、指定されたキーワード及び/又はテンプレートに基づいて、前記ターゲットテキストをトラバースして、前記ターゲットテキストに含まれる元の数値コンテンツを決定する。
本出願の一実施例では、テキスト内の数値コンテンツの誤り訂正装置100は、具体的に、M個の元の数値コンテンツに対応するターゲットタイプが同じである場合、前記M個の元の数値コンテンツに対応するターゲットタイプに関連付けられたデータフォーマットに基づいて、前記M個の元の数値コンテンツに対して正規化処理を行うための第2の処理モジュールであって、MはN以下の正整数である第2の処理モジュールをさらに含む。
本出願の一実施例では、前記第1の処理モジュール640は、
前記カウントタイプの数値に対応する開始カウントポイント及び終了カウントポイントを決定する第1の決定ユニットと、
前記終了カウントポイント及び開始カウントポイントに基づいて、ターゲットカウント値を決定する第2の決定ユニットと、
前記ターゲットカウント値が前記カウントタイプの数値と一致しない場合、前記カウントタイプの数値を前記ターゲットカウント値に置き換える第1の置換ユニットと、を含むことができる。
本出願の一実施例では、前記第1の処理モジュール640は、
前記少なくとも2つの連続した金額タイプの数値に対して正規化処理を行って、フォーマットが同じである少なくとも2つの金額タイプの数値を取得する第1の取得ユニットと、
前記フォーマットが同じである少なくとも2つの金額タイプの数値が一致しない場合、前記少なくとも2つの連続した金額タイプの数値のうちの1番目の金額タイプの数値に基づいて、残りの金額タイプの数値に対応するターゲット値を決定する第3の決定ユニットと、
前記残りの金額タイプの数値を前記ターゲット値に置き換える第2の置換ユニットと、をさらに含むことができる。
本出願の一実施例では、前記第1の処理ユニット640は、
前記ターゲットテキストの元の数値コンテンツに対応する第1の表示モードに基づいて、誤り訂正された数値コンテンツに対応する第2の表示モードを決定する第4の決定ユニットと、
前記第2の表示モードに基づいて、前記誤り訂正された数値コンテンツを前記元の数値コンテンツが存在する位置に追加する第1の表示ユニットと、をさらに含むことができる。
なお、本出願の実施例のテキスト内の数値コンテンツの誤り訂正装置の他の実施形態は前記テキスト内の数値コンテンツの誤り訂正方法の実施形態を参照でき、冗長性を回避するために、ここで説明を省略する。
本出願の実施例のテキスト内の数値コンテンツの誤り訂正装置は、数値コンテンツのタイプに基づいて数値コンテンツの誤り訂正を実現し、数値のフォーマットに対する誤り訂正だけに限定されず、数値コンテンツに対してロジック誤り訂正をさらに行い、数値誤り訂正能力を向上させ、ひいては誤り数値の検出と訂正のリコール率を向上させる。
本出願の実施例によれば、本出願は、テキスト内の数値コンテンツの誤り訂正方法の電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。以下、図7と併せて説明する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行される場合、本出願によって提供されるテキスト内の数値コンテンツの誤り訂正方法を実現する。
図7に示すように、それは本出願の実施例に係るテキスト内の数値コンテンツの誤り訂正方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図7に示すように、電子機器700は、読み取り専用メモリ(ROM)702におけるコンピュータプログラムまたはメモリ708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに従って様々な適切な動作及び処理を実行する計算ユニット701を含む。RAM 703には、電子機器700の動作に必要な各種プログラムやデータも記憶されてもよい。計算ユニット701、ROM 702、及びRAM 703は、バス704を介して互いに接続されておる。バス704には、入出力(I/O)インターフェース705も接続されている。
デバイス700の複数のコンポーネントはI/Oインターフェース705に継続され、キーボード、マウスなどの入力ユニット706、各種のディスプレイ、スピーカなどの出力ユニット707、磁気ディスク、光ディスクなどの記憶ユニット708、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット709を含む。通信ユニット709は、デバイス700が、ンターネットなどのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット701は、処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット701のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、及びいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、上記に記載された方法及び処理、例えば、テキスト内の数値コンテンツの誤り訂正方法を実行する。例えば、いくつかの実施例では、テキスト内の数値コンテンツの誤り訂正方法を、記憶ユニット708などの機械読み込み可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM702及び/又は通信ユニット709を介してデバイス700にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM703にロードされ、計算ユニット701によって実行される場合、上記に記載されたテキスト内の数値コンテンツの誤り訂正方法の1つ以上のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット701はテキスト内の数値コンテンツの誤り訂正方法を実行するように、他のいずれかの適切な方法(例えば、ファームウェアを介して)によって配置されてもよい。
本明細書で記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本出願の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。
本出願のコンテキストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記コンテンツのいずれかの適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、いずれかの形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いずれかの形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであっても良く、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPS(Virtual Private Server、仮想専用サーバ)サービスに存在する管理の難しさ、業務拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、またはブロックチェーンと組み合わせたサーバであってもよい。
本出願の実施例の技術案に基づいて、数値コンテンツのタイプに基づいて数値コンテンツの誤り訂正を実現し、数値のフォーマットに対する誤り訂正だけに限定されず、数値コンテンツに対してロジック誤り訂正をさらに行い、数値誤り訂正能力を向上させ、ひいては誤り数値の検出と訂正のリコール率を向上させる。本出願の説明で、「第一」、「第二」という用語は、目的を説明するだけで、相対的な重要性を示すかまたは暗黙的に示され、または指示された技術的な特徴を明示する数量を含むと理解されたくない。これにより、「第一」、「第二」で限定された特徴は、少なくとも1つの特徴を明示または暗黙的に含むことができる。本明細書では、(複数)の意味は、明確且つ具体的に限定されていない限り、少なくとも2つ、例えば、2つ、3つなどである。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない
上記の具体的な実施形態は、本開示に対する保護範囲を限定するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (13)

  1. コンピュータによって実行されるテキスト内の数値コンテンツの誤り訂正方法であって、
    処理対象のターゲットテキストを取得するステップと、
    前記ターゲットテキストに含まれる元の数値コンテンツを抽出するステップと、
    各前記元の数値コンテンツの特徴に基づいて、各前記元の数値コンテンツに対応するターゲットタイプを決定するステップであって、前記特徴は数値の単位または特定の記号であるステップと、
    各前記ターゲットタイプに対応する誤り訂正方式に基づいて、対応する各前記元の数値コンテンツに対して誤り訂正を行うステップと、を含み、
    前記ターゲットテキストにはカウントタイプの数値が含まれ、前記ターゲットテキストに前記カウントタイプの数値に対応する開始カウントポイントまたは終了カウントポイントが含まれる場合、
    前記各前記ターゲットタイプに対応する誤り訂正方式に基づいて、対応する各前記元の数値コンテンツに対して誤り訂正を行うステップが、
    前記カウントタイプの数値に対応する開始カウントポイント及び終了カウントポイントを決定するステップと、
    前記終了カウントポイント及び開始カウントポイントに基づいて、ターゲットカウント値を決定するステップと、
    前記ターゲットカウント値が前記カウントタイプの数値と一致しない場合、前記開始カウントポイント及び前記カウントタイプの数値を用いてターゲット終了カウントポイントを算出し、前記終了カウントポイントを前記ターゲット終了カウントポイントに置き換えるステップと、を含む、
    ことを特徴とするテキスト内の数値コンテンツの誤り訂正方法。
  2. 前記ターゲットテキストに含まれる元の数値コンテンツを抽出するステップは、
    指定されたキーワードに基づいて、前記ターゲットテキストをトラバースして、前記指定されたキーワードと一致する前記ターゲットテキストに含まれる元の数値コンテンツを抽出するステップ、
    及び/又は、
    指定されたテンプレートに基づいて、前記ターゲットテキストをトラバースして、前記指定されたテンプレートと一致する前記ターゲットテキストに含まれる元の数値コンテンツを抽出するステップ、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記ターゲットテキストにはN個の元の数値コンテンツが含まれ、Nは1より大きい整数であり、
    前記各前記元の数値コンテンツに対応するターゲットタイプを決定するステップの後に、
    M個の元の数値コンテンツに対応するターゲットタイプが同じである場合、前記M個の元の数値コンテンツに対応するターゲットタイプに関連付けられたデータフォーマットに基づいて、前記M個の元の数値コンテンツに対して正規化処理を行うステップであって、MはN以下の正整数であるステップをさらに含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記ターゲットテキストには少なくとも2つの連続した金額タイプの数値が含まれ、
    前記各前記ターゲットタイプに対応する誤り訂正方式に基づいて、対応する各前記元の数値コンテンツに対して誤り訂正を行うステップは、
    前記少なくとも2つの連続した金額タイプの数値に対して正規化処理を行って、フォーマットが同じである少なくとも2つの金額タイプの数値を取得するステップと、
    前記フォーマットが同じである少なくとも2つの金額タイプの数値が一致しない場合、前記少なくとも2つの連続した金額タイプの数値のうちの1番目の金額タイプの数値に基づいて、残りの金額タイプの数値に対応するターゲット値を決定するステップと、
    前記残りの金額タイプの数値を前記ターゲット値に置き換えるステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記対応する各前記元の数値コンテンツに対して誤り訂正を行うステップは、
    前記ターゲットテキストの元の数値コンテンツに対応する第1の表示モードに基づいて、誤り訂正された数値コンテンツに対応する第2の表示モードを決定するステップと、
    前記第2の表示モードに基づいて、前記誤り訂正された数値コンテンツを前記元の数値コンテンツが存在する位置に追加するステップと、を含む、
    ことを特徴とする請求項1~のいずれかに記載の方法。
  6. テキスト内の数値コンテンツの誤り訂正装置であって、
    処理対象のターゲットテキストを取得するための第1の取得モジュールと、
    前記ターゲットテキストに含まれる元の数値コンテンツを抽出するための第1の決定モジュールと、
    各前記元の数値コンテンツの特徴に基づいて、各前記元の数値コンテンツに対応するターゲットタイプを決定するための第2の決定モジュールであって、前記特徴は数値の単位または特定の記号である第2の決定モジュールと、
    各前記ターゲットタイプに対応する誤り訂正方式に基づいて、対応する各前記元の数値コンテンツに対して誤り訂正を行うための第1の処理モジュールと、を含み、
    前記ターゲットテキストにはカウントタイプの数値が含まれ、
    前記第1の処理モジュールが、
    前記カウントタイプの数値に対応する開始カウントポイント及び終了カウントポイントを決定するための第1の決定ユニットと、
    前記終了カウントポイント及び開始カウントポイントに基づいて、ターゲットカウント値を決定するための第2の決定ユニットと、
    前記ターゲットカウント値が前記カウントタイプの数値と一致しない場合、前記開始カウントポイント及び前記カウントタイプの数値を用いてターゲット終了カウントポイントを算出し、前記終了カウントポイントを前記ターゲット終了カウントポイントに置き換えるための第1の置換ユニットと、を含む、
    ことを特徴とするテキスト内の数値コンテンツの誤り訂正装置。
  7. 前記第1の決定モジュールが、
    指定されたキーワードに基づいて、前記ターゲットテキストをトラバースして、前記ターゲットテキストに含まれる元の数値コンテンツを抽出し、
    指定されたテンプレートに基づいて、前記ターゲットテキストをトラバースして、前記指定されたテンプレートと一致する前記ターゲットテキストに含まれる元の数値コンテンツを抽出する、
    ことを特徴とする請求項に記載の装置。
  8. M個の元の数値コンテンツに対応するターゲットタイプが同じである場合、前記M個の元の数値コンテンツに対応するターゲットタイプに関連付けられたデータフォーマットに基づいて、前記M個の元の数値コンテンツに対して正規化処理を行うための第2の処理モジュールであって、MはN以下の正整数である第2の処理モジュールをさらに含む、
    ことを特徴とする請求項に記載の装置。
  9. 前記第1の処理モジュールが
    なくとも2つの連続した金額タイプの数値に対して正規化処理を行って、フォーマットが同じである少なくとも2つの金額タイプの数値を取得するための第1の取得ユニットと、
    前記フォーマットが同じである少なくとも2つの金額タイプの数値が一致しない場合、前記少なくとも2つの連続した金額タイプの数値のうちの1番目の金額タイプの数値に基づいて、残りの金額タイプの数値に対応するターゲット値を決定するための第3の決定ユニットと、
    前記残りの金額タイプの数値を前記ターゲット値に置き換えるための第2の置換ユニットと、を含む、
    ことを特徴とする請求項に記載の装置。
  10. 前記第1の処理モジュールが、
    前記ターゲットテキストの元の数値コンテンツに対応する第1の表示モードに基づいて、誤り訂正された数値コンテンツに対応する第2の表示モードを決定するための第4の決定ユニットと、
    前記第2の表示モードに基づいて、前記誤り訂正された数値コンテンツを前記元の数値コンテンツが存在する位置に追加するための第1の表示ユニットと、を含む、
    ことを特徴とする請求項6~9のいずれかに記載の装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~のいずれかに記載のテキスト内の数値コンテンツの誤り訂正方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~のいずれかに記載のテキスト内の数値コンテンツの誤り訂正方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~のいずれかに記載のテキスト内の数値コンテンツの誤り訂正方法を実現する、
    ことを特徴とするコンピュータプログラム。
JP2021187369A 2020-12-25 2021-11-17 テキスト内の数値コンテンツの誤り訂正方法、装置及び電子機器 Active JP7268119B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011561776.2A CN112560430B (zh) 2020-12-25 2020-12-25 文本中数值内容的纠错方法、装置及电子设备
CN202011561776.2 2020-12-25

Publications (2)

Publication Number Publication Date
JP2022024093A JP2022024093A (ja) 2022-02-08
JP7268119B2 true JP7268119B2 (ja) 2023-05-02

Family

ID=75032655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021187369A Active JP7268119B2 (ja) 2020-12-25 2021-11-17 テキスト内の数値コンテンツの誤り訂正方法、装置及び電子機器

Country Status (3)

Country Link
US (1) US11526657B2 (ja)
JP (1) JP7268119B2 (ja)
CN (1) CN112560430B (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020521A (ja) 1998-07-06 2000-01-21 Just Syst Corp 文書解析装置およびその方法
JP2000348259A (ja) 1999-06-02 2000-12-15 Hitachi Ltd 顧客操作型自動取引装置
JP2008112363A (ja) 2006-10-31 2008-05-15 Toshiba Corp 文書処理装置および文書処理プログラム
US20140223310A1 (en) 2013-02-01 2014-08-07 Nuance Communications, Inc. Correction Menu Enrichment with Alternate Choices and Generation of Choice Lists in Multi-Pass Recognition Systems
US11182354B1 (en) 2018-11-27 2021-11-23 Tekion Corp Data analysis and processing engine

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3628160B2 (ja) * 1997-11-06 2005-03-09 日本電信電話株式会社 日時表現正規化装置及び日時表現正規化プログラムを記録した記録媒体
JP3936453B2 (ja) 1997-12-04 2007-06-27 富士通株式会社 文書校正装置
JPH11250037A (ja) 1998-02-26 1999-09-17 Sumitomo Metal Ind Ltd コンテンツ編集装置および記録媒体
JP4605110B2 (ja) 2006-07-11 2011-01-05 セイコーエプソン株式会社 液晶装置、及びそれを備えた画像表示装置
CN101950286A (zh) * 2010-09-14 2011-01-19 传神联合(北京)信息技术有限公司 软件翻译系统中的纠错模块及其纠错方法
CN103164426B (zh) * 2011-12-13 2015-10-28 北大方正集团有限公司 一种命名实体识别的方法及装置
CN106610930B (zh) * 2015-10-22 2019-09-03 科大讯飞股份有限公司 外语写作自动纠错方法及系统
US20170220678A1 (en) * 2016-02-01 2017-08-03 Oklahoma Medical Research Foundation Automated scientific error checking
CN106708799B (zh) * 2016-11-09 2020-02-18 上海智臻智能网络科技股份有限公司 一种文本纠错方法、装置及终端
CN110750982A (zh) * 2018-07-04 2020-02-04 北京国双科技有限公司 一种法律文书的纠错方法、装置、存储介质及处理器
US11328123B2 (en) * 2019-03-14 2022-05-10 International Business Machines Corporation Dynamic text correction based upon a second communication containing a correction command
JP2020197592A (ja) * 2019-05-31 2020-12-10 パナソニックIpマネジメント株式会社 テキスト補正装置およびテキスト補正方法
CN110489723A (zh) * 2019-08-19 2019-11-22 绍兴数纺科技有限公司 一种印染行业信息系统的数据查错与纠错系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020521A (ja) 1998-07-06 2000-01-21 Just Syst Corp 文書解析装置およびその方法
JP2000348259A (ja) 1999-06-02 2000-12-15 Hitachi Ltd 顧客操作型自動取引装置
JP2008112363A (ja) 2006-10-31 2008-05-15 Toshiba Corp 文書処理装置および文書処理プログラム
US20140223310A1 (en) 2013-02-01 2014-08-07 Nuance Communications, Inc. Correction Menu Enrichment with Alternate Choices and Generation of Choice Lists in Multi-Pass Recognition Systems
US11182354B1 (en) 2018-11-27 2021-11-23 Tekion Corp Data analysis and processing engine

Also Published As

Publication number Publication date
CN112560430B (zh) 2024-04-02
US11526657B2 (en) 2022-12-13
JP2022024093A (ja) 2022-02-08
CN112560430A (zh) 2021-03-26
US20210342524A1 (en) 2021-11-04

Similar Documents

Publication Publication Date Title
EP4113354A2 (en) Method and apparatus for generating pre-trained language model, electronic device and storage medium
US20220309549A1 (en) Identifying key-value pairs in documents
US20130061139A1 (en) Server-based spell checking on a user device
EP4322009A1 (en) Test case generation method, apparatus and device
CN111144100B (zh) 一种问题文本识别方法、装置、电子设备及存储介质
US20130060560A1 (en) Server-based spell checking
CN112560846B (zh) 纠错语料的生成方法、装置及电子设备
CN111090641A (zh) 数据处理方法及装置、电子设备、存储介质
CN114218951B (zh) 实体识别模型的训练方法、实体识别方法及装置
JP7040155B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN113641829A (zh) 图神经网络的训练与知识图谱的补全方法、装置
CN115862031B (zh) 文本处理方法、神经网络的训练方法、装置和设备
JP7268119B2 (ja) テキスト内の数値コンテンツの誤り訂正方法、装置及び電子機器
CN116662484A (zh) 一种文本正则化方法、装置、设备以及存储介质
CN114490969B (zh) 基于表格的问答方法、装置以及电子设备
JP6568968B2 (ja) 文書校閲装置およびプログラム
CN114662469B (zh) 情感分析方法、装置、电子设备及存储介质
CN113886748A (zh) 网页内容的编辑信息生成、信息输出方法、装置及设备
CN115034209A (zh) 文本分析方法、装置、电子设备以及存储介质
CN112541557A (zh) 生成式对抗网络的训练方法、装置及电子设备
CN117892724B (zh) 一种文本检测方法、装置、设备及存储介质
CN114973279B (zh) 手写文本图像生成模型的训练方法、装置和存储介质
CN115600924A (zh) 信息处理方法、装置、设备及存储介质
US11494425B2 (en) Schema-informed extraction for unstructured data
WO2023119496A1 (ja) 抽出装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230420

R150 Certificate of patent or registration of utility model

Ref document number: 7268119

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150