CN105046289B - 一种文字域类型识别方法和文字域类型识别系统 - Google Patents

一种文字域类型识别方法和文字域类型识别系统 Download PDF

Info

Publication number
CN105046289B
CN105046289B CN201510484879.6A CN201510484879A CN105046289B CN 105046289 B CN105046289 B CN 105046289B CN 201510484879 A CN201510484879 A CN 201510484879A CN 105046289 B CN105046289 B CN 105046289B
Authority
CN
China
Prior art keywords
domain
discourse
lteral data
language model
field type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510484879.6A
Other languages
English (en)
Other versions
CN105046289A (zh
Inventor
朱睿
张弛
吴家楠
周舒畅
印奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Beijing Maigewei Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Beijing Maigewei Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd, Beijing Maigewei Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201510484879.6A priority Critical patent/CN105046289B/zh
Publication of CN105046289A publication Critical patent/CN105046289A/zh
Application granted granted Critical
Publication of CN105046289B publication Critical patent/CN105046289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文字域类型识别方法和文字域类型识别系统。所述方法包括:步骤S101:载入文字数据的语言模型,其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器;以及步骤S102:通过所述语言模型确定新输入的文字数据的文字域类型。该方法可以更加精确地进行文字域类型识别,以提供最优的识别性能。该文字域类型识别系统同样具有上述优点。

Description

一种文字域类型识别方法和文字域类型识别系统
技术领域
本发明涉及文字域识别领域,具体而言涉及一种文字域类型识别方法和文字域类型识别系统。
背景技术
当今社会,各种各样的文档和人们的工作生活是分不开的。一般较为常见的文档上有许多文字域,如身份证上会有姓名,出生日期等,或者合同上会有标题、条款和签名。在获取这些文字域的文字信息后,若有一种高效的方法可以将这些文字信息各属于哪一类文字域(姓名、出生日期、标题...)区分出来,便可以得到一些具体的用途。如可以反过来校验获取这些文字信息的OCR(Optical Character Recognition,光学字符识别)算法,或者将散乱的文字内容,通过文字域的识别,再次组合成一个个完整的证件。
经过调研发现,现在市面上具有类似功能的系统种类并不很多,并且其中绝大部分的识别方法都是很简陋的且难以推广的,比如针对身份证,就单纯的设置一些规则来识别,出现了五十六个民族里面的字就判别为“民族”域,出现了百家姓就判别为“姓名”域,出现了数字就判别为“出生日期”域等。然而,这些识别方法是非常容易出错的,如对于“张家口”就很难将其正确识别为“地址”域,而会错误识别成为“姓名”域。此外,当文本信息有一些无规则的扰动(比如录入错误,或者是识别的过程出现问题)时,以上述方法将不再有效。
发明内容
针对现有技术的不足,本发明提出一种文字域类型识别方法和文字域类型识别系统,可以显著提升文字域类型识别的精确度和性能,同时具有速度快和相当的灵活性。
本发明的一个实施例提供一种文字域类型识别方法,其特征在于,所述方法包括:步骤S101:载入文字数据的语言模型,其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域类型;以及步骤S102:通过所述语言模型确定新输入的文字数据的文字域类型。
示例性地,所述神经网络是长短期记忆人工神经网络LSTM。
示例性地,所述步骤S102包括:通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度,将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率,并将概率最高的类型确定为所述新输入的文字数据的文字域类型。
示例性地,在所述步骤S102之后还包括步骤S103:读入所述新输入的文字数据,将所述文字数据编码以作为待判定的数据,判断是否进行修改,以及如果是则返回修改后的文字数据。
示例性地,在步骤S102中,在确定新输入的文字数据的文字域类型之前,对所述新输入的文字数据进行编码,以便于所述语言模型的处理。
本发明的另一实施例提供一种文字域类型识别系统,其特征在于,所述系统包括:文字域识别模块,用于载入文字数据的语言模型,其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器;以及通过所述语言模型确定新输入的文字数据的文字域类型。
示例性地,所述神经网络是长短期记忆人工神经网络LSTM。
示例性地,所述文字域识别模块还用于通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度,将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率,并将概率最高的类型确定为所述新输入的文字数据的文字域类型。
示例性地,所述系统还包括文字域修正模块,用于读入所述新输入的文字数据,将所述文字数据编码以作为待判定的数据,判断是否进行修改,以及如果是则返回修改后的文字数据。
示例性地,在所述文字域识别模块确定新输入的文字数据的文字域类型之前,对所述新输入的文字数据进行编码,以便于所述语言模型的处理。
本发明的文字域识别方法,由于通过基于神经网络训练得到的语言模型对新输入的文字数据为特定类型的概率进行计算,因而可以保证更高的文字域识别精确度和最优的文字域识别性能。本发明的文字域识别系统,同样具有上述优点。
附图说明
本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述,用来解释本发明的原理。
附图中:
图1为本发明实施例一的文字域类型识别方法的一种流程图;以及
图2为本发明实施例二的文字域类型识别方法的一种流程图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
应当理解的是,本发明能够以不同形式实施,而不应当解释为局限于这里提出的实施例。相反地,提供这些实施例将使公开彻底和完全,并且将本发明的范围完全地传递给本领域技术人员。在附图中,为了清楚,层和区的尺寸以及相对尺寸可能被夸大。自始至终相同附图标记表示相同的元件。
在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时,单数形式的“一”、“一个”和“所述/该”也意图包括复数形式,除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”,当在该说明书中使用时,确定所述特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时,术语“和/或”包括相关所列项目的任何及所有组合。
为了彻底理解本发明,将在下列的描述中提出详细的步骤以及详细的结构,以便阐释本发明的技术方案。本发明的较佳实施例详细描述如下,然而除了这些详细描述外,本发明还可以具有其他实施方式。
本发明的一个实施例提供一种文字域识别方法。该方法可以显著提高文字域识别的精确度以及文字域识别性能。
实施例一
下面,参照图1来具体描述本发明的一个实施例的一种文字域类型识别方法。其中,图1为本发明实施例一的文字域类型识别方法的一种流程图。
本发明实施例的作者分析方法,包括如下步骤:
步骤S101:载入文字数据的语言模型,其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器。
示例性地,语言模型的训练可以包括如下步骤:语言模型学习模块读入大量带标注的文字信息数据,将其处理成为便于处理的编码格式;通过神经网络算法训练出一个相应的语言模型(即文字域分类器)并存储。语言模型的训练可以通过语言模型学习模块实现。
步骤S102:通过所述语言模型确定新输入的文字数据的文字域类型。示例性地,本步骤包括:文字域识别模块载入相应的训练好的语言模型;文字域识别模块将编码好的文字信息数据一批批的输入给语言模型,并在语言模型的输出端得到这些文字信息的分类结果(即文字域类型),返回输出给用户。示例性地,本步骤还可以包括:文字域识别模块在读入待分类的文字信息数据后,将其转换成为便于处理的编码格式,以便于所述语言模型的处理。
示例性地,所述神经网络是长短期记忆人工神经网络LSTM(Long Short TermMemory)。
示例性地,所述步骤S102包括:通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度,将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率,并将概率最高的类型确定为所述新输入的文字数据的文字域类型。
示例性地,在步骤S101中,文字域所属类型的属性是预先定义的。
本发明实施例的方法,由于通过基于神经网络训练得到的语言模型对新输入的文字数据为特定类型的概率进行计算,因而可以保证更高的文字域识别精确度和最优的文字域识别性能。进一步地,由于引入了LSTM神经网络,因而可以进一步保证更高的文字域识别精确度和最优的文字域识别性能。本方法优势不止在于一次学习完成之后的每一次识别的速度都很快,还具有相当的灵活性。用户可以根据自己的需求自己定义训练数据中包括的各项文字域的属性,基于此训练出的语言模型便具有判别出相应文字域的能力。
该实施例给出了一个不含有文字域修正模块的基于语言模型的文本文字域识别系统的简易实施例。该实施例主要包括语言模型学习模块和文字域识别模块两部分。语言模型学习模块从指定数据文件中读入大量带文字域信息标注的文字数据,并通过LSTM训练学习出一个语言模型,保存在指定文件目录中。文字域识别模块则可以在读入一个语言模型之后,为一些文字信息提供相应的文字域分类(或者无法识别将其分类为“未知”域)。
实施例二
下面,参照图2来具体描述本发明的一个实施例的一种文字域类型识别方法。其中,图2为本发明实施例二的文字域类型识别方法的流程图。
本发明实施例的文字域类型识别方法,包括如下步骤:步骤S101和S102与实施例一相同,在所述步骤S102之后还包括步骤S103:读入所述新输入的文字数据,将所述文字数据编码以作为待判定的数据,判断是否进行修改,以及如果是则返回修改后的文字数据。示例性地,文字域修正模块读入被分好类的文字信息及其分类,将其处理成为便于处理的编码格式。示例性地,文字域修正模块载入相应的训练好的语言模型。示例性地,文字域修正模块将编码好的文字信息数据一批批输给语言模型,并在语言模型的输出端得到这些文字信息的每个字词,在当前分类结果下的置信程度,并根据一些参数决定是否修改与如何修改。示例性地,该步骤还包括将修改后的文字信息返回给用户。
该实施例给出了一个包含文字域修正模块的基于语言模型的文本文字域识别系统的完整实施例。该实施例在实施例一的基础上增加了文字域修正模块。该模块通过根据一个指定的语言模型,将输入的已经按照文字域分好类的文字信息中可能出现的错误(漏字、错字、多字等)排除。
本发明的另一实施例提供一种文字域类型识别系统,该文字域类型识别系统,其特征在于,所述系统包括:文字域识别模块,用于载入文字数据的语言模型,其中所述语言模型为利用所述文字数据基于神经网络训练得到;以及通过所述语言模型计算新输入的文字数据为特定类型的概率。其中,所述语言模块可以为通过语言模型学习模块训练得到。
示例性地,所述神经网络是长短期记忆人工神经网络LSTM。
示例性地,所述文字域识别模块还用于通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度,将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率,并将概率最高的类型确定为所述新输入的文字数据的文字域类型。
示例性地,所述系统还包括文字域修正模块,用于读入所述新输入的文字数据,将所述文字数据编码以作为待判定的数据,判断是否进行修改,以及如果是则返回修改后的文字数据。
示例性地,在所述文字域识别模块中,文字域所属类型的属性是预先定义的。
在本发明各实施例的文字域识别方法中,可以不包括语言模型的训练步骤,而采用预先训练好的语言模型。在本发明各实施例的文字域类型识别系统中,也可以不包括语言模型学习模块,而是采用预先训练好的语言模型。
综上所述,为了能够更好的进行文本文字域识别,本发明提供了一种基于语言模型的文本文字域识别与分类系统。该系统包括一个语言模型学习模块、一个文字域识别模块与一个文字域修正模块。语言模型学习模块针对大量的、已标注的某一类文本文字数据(如某一类合同,或身份证、房产证),通过LSTM等算法的训练学习,得出一个该类型文本各文字域的语言模型并保存在硬盘中。文字域识别模块则载入一个指定的语言模型,在分析该语言模型后,对用户给出的散乱的每一条文字信息给出一个其文字域的判别,如姓名,性别或未知域等。文字域修正模块则根据文字域识别模块识别出的结果,对输入文字信息中可能出现的错误进行修正,如修正住址中的错别字和补全内容等。
在一个具体示例中,该文本文字域识别系统可以不包括文字域修正模块,而在文字域识别模块采用利用特定类型的文字数据基于神经网络事先训练好的语言模型。当然,在某些示例中,文字域修正模块也可以省略。
本系统优势不止在于一次学习完成之后的每一次识别的速度都很快,还具有相当的灵活性。用户可以根据自己的需求自己定义训练数据中包括的各项文字域的属性,基于此训练出的语言模型便具有判别出相应文字域的能力。同时,本系统还具备有极高的精确度。针对身份证这一特定场景,在训练与测试数据有大量干扰(缺字漏字,多一些无意义的字,误识别或者误录入)的情况下,可以达到99%以上的判别准确率;而在训练与测试数据相对完整的情况下,准确率更是几乎可以做到100%。
在本系统的帮助下,许多之前的系统和算法的效率都可以得到一个极大提升。比如OCR自动识别录入身份证信息这一特定的应用场景就是其中之一。OCR系统先进行一次直接的文字识别,将得到的证照文字信息输入给本系统的文字域识别模块。然后文字识别模块分别给出这些文字信息分别属于哪个文字域。一方面,识别出的文字域可以提供给OCR系统作为文本框查找等算法的修正依据进行下一步的调整后得到一个更加准确的文字识别结果;另一方面,识别出的文字域结合文字域修正模块可以直接对OCR结果进行修改,得到一个置信度较高的识别结果反馈给用户。
本发明实施例的各个模块可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文字域识别系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在存储载体上提供,或者以任何其他形式提供。
贯穿上述实施例,本发明基于语言模型生成和识别系统提供了一套高效、智能且具有重大参考意义的文本文字域识别方法。由于新技术与方法的引入,识别模块的精确度与可靠性都有极大的突破,能够更加准确的进行文字域类型识别。
本发明已经通过上述实施例进行了说明,但应当理解的是,上述实施例只是用于举例和说明的目的,而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是,本发明并不局限于上述实施例,根据本发明的教导还可以做出更多种的变型和修改,这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims (8)

1.一种文字域类型识别方法,其特征在于,所述方法包括:
步骤S101:载入文字数据的语言模型,其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器;
步骤S102:通过所述语言模型确定新输入的文字数据的文字域类型;以及
步骤S103:对所述新输入的文字数据进行编码,基于经编码的所述新输入的文字数据、由步骤S102得到的所属的所述文字域类型,通过用于修正文字域类型的语言模型,判断所述新输入的文字数据是否需要进行修改,以及如果是则将所述新输入的文字数据中出现的漏字、错字、多字中的至少一种错误修改,并返回修改后的文字数据。
2.如权利要求1所述的文字域类型识别方法,其特征在于,所述神经网络是长短期记忆人工神经网络LSTM。
3.如权利要求1或2所述的文字域类型识别方法,其特征在于,所述步骤S102包括:通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度,将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率,并将概率最高的类型确定为所述新输入的文字数据的文字域类型。
4.如权利要求1所述的文字域类型识别方法,其特征在于,在步骤S102中,在确定新输入的文字数据的文字域类型之前,对所述新输入的文字数据进行编码,以便于所述语言模型的处理。
5.一种文字域类型识别系统,其特征在于,所述系统包括:
文字域识别模块,用于载入文字数据的语言模型,其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器;通过所述语言模型确定新输入的文字数据的文字域类型;以及文字域修正模块,用于对所述新输入的文字数据进行编码,基于经编码的所述新输入的文字数据、由所述语言模型确定的所属的所述文字域类型,通过用于修正文字域类型的语言模型,判断所述新输入的文字数据是否需要进行修改,以及如果是则将所述新输入的文字数据中出现的漏字、错字、多字中的至少一种错误修改,并返回修改后的文字数据。
6.如权利要求5所述的文字域类型识别系统,其特征在于,所述神经网络是长短期记忆人工神经网络LSTM。
7.如权利要求5或6所述的文字域类型识别系统,其特征在于,所述文字域识别模块还用于通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度,将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率,并将概率最高的类型确定为所述新输入的文字数据的文字域类型。
8.如权利要求5所述的文字域类型识别系统,其特征在于,在所述文字域识别模块确定新输入的文字数据的文字域类型之前,对所述新输入的文字数据进行编码,以便于所述语言模型的处理。
CN201510484879.6A 2015-08-07 2015-08-07 一种文字域类型识别方法和文字域类型识别系统 Active CN105046289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510484879.6A CN105046289B (zh) 2015-08-07 2015-08-07 一种文字域类型识别方法和文字域类型识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510484879.6A CN105046289B (zh) 2015-08-07 2015-08-07 一种文字域类型识别方法和文字域类型识别系统

Publications (2)

Publication Number Publication Date
CN105046289A CN105046289A (zh) 2015-11-11
CN105046289B true CN105046289B (zh) 2019-04-26

Family

ID=54452818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510484879.6A Active CN105046289B (zh) 2015-08-07 2015-08-07 一种文字域类型识别方法和文字域类型识别系统

Country Status (1)

Country Link
CN (1) CN105046289B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463928A (zh) * 2017-07-28 2017-12-12 顺丰科技有限公司 基于ocr和双向lstm的文字序列纠错算法、系统及其设备
CN109214387A (zh) * 2018-09-14 2019-01-15 辽宁奇辉电子系统工程有限公司 一种基于文字识别技术的铁路作业检测系统
CN109271973A (zh) * 2018-11-09 2019-01-25 天津新开心生活科技有限公司 医学文本ocr方法及系统
CN109872162B (zh) * 2018-11-21 2023-06-16 创新先进技术有限公司 一种处理用户投诉信息的风控分类识别方法及系统
CN109784445A (zh) * 2019-01-15 2019-05-21 上海通方信息系统有限公司 一种32位喷码智能识别系统
SG10201904825XA (en) * 2019-05-28 2019-10-30 Alibaba Group Holding Ltd Automatic optical character recognition (ocr) correction
CN110348346A (zh) * 2019-06-28 2019-10-18 苏宁云计算有限公司 一种票据分类识别方法及系统
CN112651392A (zh) * 2020-12-22 2021-04-13 深圳壹账通智能科技有限公司 证件信息的获取方法及装置、存储介质、计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008405A (zh) * 2013-02-26 2014-08-27 佳能株式会社 手写字符识别方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9620108B2 (en) * 2013-12-10 2017-04-11 Google Inc. Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008405A (zh) * 2013-02-26 2014-08-27 佳能株式会社 手写字符识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Named Entity Recognition with Long Short-Term Memory";James Hammerton;《CONLL "03 Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003》;20031230;第4卷;第172-175页 *
James Hammerton."Named Entity Recognition with Long Short-Term Memory".《CONLL "03 Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003》.2003,第4卷 *

Also Published As

Publication number Publication date
CN105046289A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
CN105046289B (zh) 一种文字域类型识别方法和文字域类型识别系统
CN106649694B (zh) 语音交互中确定用户意图的方法及装置
US11023766B2 (en) Automatic optical character recognition (OCR) correction
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
KR20190026641A (ko) 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체
CN110442859B (zh) 标注语料生成方法、装置、设备及存储介质
CN110309301B (zh) 企业类别的分类方法、装置及智能终端
CN111243601B (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
US11609748B2 (en) Semantic code search based on augmented programming language corpus
CN110807319A (zh) 一种文本内容检测方法、检测装置、电子设备及存储介质
CN108717459B (zh) 一种面向用户评论信息的移动应用缺陷定位方法
CN109299276B (zh) 一种将文本转化为词嵌入、文本分类方法和装置
CN107463935A (zh) 应用分类方法和应用分类装置
WO2022089227A1 (zh) 地址参数处理方法及相关设备
WO2020063524A1 (zh) 一种法律文书的确定方法及系统
CN112052305A (zh) 信息提取方法、装置、计算机设备及可读存储介质
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN113627159B (zh) 纠错模型的训练数据确定方法、装置、介质及产品
CN110532562A (zh) 神经网络训练方法、成语误用检测方法、装置和电子设备
CN111611781B (zh) 数据标注方法、问答方法、装置及电子设备
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN110750712A (zh) 基于数据驱动的软件安全需求推荐方法
CN110895703A (zh) 法律文书案由识别方法及装置
CN112541357B (zh) 实体识别方法、装置及智能设备
CN114417860A (zh) 一种信息检测方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100190 Beijing, Haidian District Academy of Sciences, South Road, No. 2, block A, No. 313

Applicant after: MEGVII INC.

Applicant after: Beijing maigewei Technology Co., Ltd.

Address before: 100190 Beijing, Haidian District Academy of Sciences, South Road, No. 2, block A, No. 313

Applicant before: MEGVII INC.

Applicant before: Beijing aperture Science and Technology Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant