CN114647727A - 应用于实体信息识别的模型训练方法、装置和设备 - Google Patents

应用于实体信息识别的模型训练方法、装置和设备 Download PDF

Info

Publication number
CN114647727A
CN114647727A CN202210266132.3A CN202210266132A CN114647727A CN 114647727 A CN114647727 A CN 114647727A CN 202210266132 A CN202210266132 A CN 202210266132A CN 114647727 A CN114647727 A CN 114647727A
Authority
CN
China
Prior art keywords
text
trained
information
entity
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210266132.3A
Other languages
English (en)
Inventor
宋永浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210266132.3A priority Critical patent/CN114647727A/zh
Publication of CN114647727A publication Critical patent/CN114647727A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了应用于实体信息识别的模型训练方法、装置和设备,涉及人工智能领域,尤其涉及自然语言处理、知识图谱、知识挖掘和大数据等领域。具体实现方案为:获取待训练的文本集合,待训练的文本集合中包括多个待训练文本,待训练文本中包括多个字符;对待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,待处理文本簇中包括至少一个待训练文本,待处理文本簇中的待训练文本具有语义相似性;待处理文本簇中的待训练文本具有至少一个实体信息;根据待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,所述实体识别模型用于识别待识别文本中的实体信息。通过上述方法,提高实体识别模型的训练速度。

Description

应用于实体信息识别的模型训练方法、装置和设备
技术领域
本公开涉及人工智能中的自然语言处理、知识图谱、知识挖掘和大数据等领域,尤其涉及一种应用于实体信息识别的模型训练方法、装置和设备。
背景技术
随着数字技术和互联网技术的飞速发展,会产生大量的文本数据。需要对文本数据中的实体信息进行识别,以根据所得到的实体信息进行相应的后续处理。后续处理,例如是,进行信息的推送处理,或者进行非法信息的识别处理,或者进行其他处理。其中,实体信息例如是具体的时间信息、具体的地点信息、等等。
可以基于大量的数据进行模型的训练,进而得到用于识别文本中的实体信息的实体识别模型。
如何快速完成的实体识别模型的训练,是一个亟需解决的问题。
发明内容
本公开提供了一种用于提高实体识别模型的训练速度的应用于实体信息识别的模型训练方法、装置和设备。
根据本公开的第一方面,提供了一种应用于实体信息识别的模型训练方法,包括:
获取待训练的文本集合,所述待训练的文本集合中包括多个待训练文本,所述待训练文本中包括多个字符;
对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,所述待处理文本簇中包括至少一个待训练文本,所述待处理文本簇中的待训练文本具有语义相似性;所述待处理文本簇中的待训练文本具有至少一个实体信息;
根据所述待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,所述实体识别模型用于识别待识别文本中的实体信息。
根据本公开的第二方面,提供了一种基于文本的实体信息识别方法,包括:
获取待识别文本;
根据实体识别模型对所述待识别文本进行识别处理,得到所述待识别文本中的实体信息;
其中,所述实体识别模型为根据第一方面所述的方法所得到的模型。
根据本公开的第三方面,提供了一种应用于实体信息识别的模型训练装置,包括:
第一获取单元,用于获取待训练的文本集合,所述待训练的文本集合中包括多个待训练文本,所述待训练文本中包括多个字符;
聚类单元,用于对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,所述待处理文本簇中包括至少一个待训练文本,所述待处理文本簇中的待训练文本具有语义相似性;所述待处理文本簇中的待训练文本具有至少一个实体信息;
训练单元,用于根据所述待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,所述实体识别模型用于识别待识别文本中的实体信息。
根据本公开的第四方面,提供了一种基于文本的实体信息识别装置,包括:
第二获取单元,用于获取待识别文本;
处理单元,用于根据实体识别模型对所述待识别文本进行识别处理,得到所述待识别文本中的实体信息;
其中,所述实体识别模型为根据第三方面所述的装置所得到的模型。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法,或者,以使所述至少一个处理器能够执行第二方面所述的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法,或者,所述计算机指令用于使所述计算机执行第二方面所述的方法。
根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法,或者,所述至少一个处理器执行所述计算机程序使得电子设备执行第二方面所述的方法。
根据本公开的技术提高了实体识别模型的训练速度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是根据本公开第三实施例的示意图;
图4是根据本公开第四实施例的示意图;
图5是根据本公开第五实施例的示意图;
图6是根据本公开第六实施例的示意图;
图7是根据本公开第七实施例的示意图;
图8是根据本公开第八实施例的示意图;
图9是用来实现本公开实施例的应用于实体信息识别的模型训练方法、或者基于文本的实体信息识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前,随着互联网技术的发展,越来越多的网络应用中出现了大量的文本数据。通常在对文本数据进行处理时,会对文本数据中的实体信息进行识别,进而可以基于识别到的文本数据中的实体信息进行后续处理。举例来说,可以基于文本数据中的实体信息对文本数据进行语法分析、机器翻译。又或者是可以基于文本数据中所提供的实体信息进行信息推送,或者是非法信息的识别,例如确定该文本数据是否为诈骗文本等。文本数据中的实体信息可以为:人名、机构名、地名、日期等。
相关技术中,在识别文本数据中的实体信息时,可以通过人为标注大量的样本数据集,即人为对样本数据集中的各文本数据中的实体信息进行标注之后,基于标注后的样本数据集对所构建的实体识别模型进行训练。
然而,在上述实体识别模型的训练过程中,需要耗费大量人工进行数据标注且耗时较长,进而导致实体识别模型的训练耗时较长。此外,人工进行大量数据标注时,容易标注出错,进而导致实体识别模型的所确定的识别结果的准确度较低。
为了避免上述技术问题中的至少一种,本公开的发明人经过创造性地劳动,得到了本公开的发明构思:通过对获取到的待训练文本进行聚类处理之后,得到至少一个待处理文本簇,并基于待处理文本簇对初始模型进行训练,进而得到实体识别模型。
基于上述发明构思,本公开提供一种应用于实体信息识别的模型训练方法、装置和设备,应用于人工智能中的自然语言处理、知识图谱、知识挖掘和大数据,以达到快速完成对实体识别模型的训练。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图1是根据本公开第一实施例的示意图,如图1所示,本公开实施例的应用于实体信息识别的模型训练方法,包括:
S101、获取待训练的文本集合,待训练的文本集合中包括多个待训练文本,待训练文本中包括多个字符。
示例性地,本实施例中的执行主体可以为应用于实体信息识别的模型训练装置(下文简称为训练装置),训练装置可以为服务器(如本地服务器,或者,云端服务器),也可以为计算机,也可以为终端设备,也可以为处理器,也可以为芯片等,本实施例不做限定。
本实施例中的文本集合由多个待训练文本组成,并且在待训练文本中还包括多个字符,即待训练文本可由多个字符组成。
S102、对待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,待处理文本簇中包括至少一个待训练文本,待处理文本簇中的待训练文本具有语义相似性;待处理文本簇中的待训练文本具有至少一个实体信息。
示例性地,本实施例中,在获取到待训练文本集合之后,会采用聚类的方式对待训练的文本集合进行聚类处理。在聚类处理之后,可以得到至少一个待处理的文本簇。在待处理的文本簇中包括至少一个待训练样本,并且,同一待处理的文本簇中所包含的训练样本之间的语义相似。此外,待处理的文本簇中的待训练样本中至少包括一个实体信息。
本实施例中的聚类方式可以采用常规的聚类方法,例如,k均值聚类算法(k-meansclustering algorithm,简称k-means),或者,基于密度的聚类算法(Density-BasedSpatial Clustering of Applications with Noise,简称DBSCAN)。
S103、根据待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,实体识别模型用于识别待识别文本中的实体信息。
示例性地,初始模型为预先设置的初始化的实体识别模型。实体识别模型可用于对输入的待识别文本中的实体信息进行识别。
在基于聚类的方式确定出待处理文本簇之后,可以将上述待处理文本簇作为初始模型的训练集对初始模型进行训练,以使得训练后得到的实体识别模型可用于识别待识别文本中的实体信息。
基于上述分析可知,在本实施例中,通过对待训练的文本集合进行处理,进而得到至少一个包含实体信息的待处理文本簇,并基于待处理的文本簇对初始模型进行训练,得到实体识别模型,避免了人工标注或者筛选数据集造成的人工成本偏高,且可靠性较低,耗时较长的问题。并且当需要处理的待训练文本集合中的待训练样本较多时,也可以通过上述聚类的方式,减少人工成本,增加后续训练初始化模型的文本数据的丰富性,以提高训练得到的实体识别模型的准确性和可靠性。
为使读者更深刻地理解本公开的实现原理,现结合以下图2对图1所示的实施例进行进一步细化。
图2是根据本公开第二实施例的示意图,如图2所示,本公开实施例的应用于实体信息识别的模型训练方法,包括:
S201、获取初始文本集合,初始文本集合中包括多个初始文本。
示例性地,为了获取实体识别模型,本实施例中首先可以获取包括多个初始文本的初始文本集合。
示例性地,本实施例中的执行主体可以为应用于实体信息识别的模型训练装置(下文简称为训练装置),训练装置可以为服务器(如本地服务器,或者,云端服务器),也可以为计算机,也可以为终端设备,也可以为处理器,也可以为芯片等,本实施例不做限定。本实施例以电子设备为执行主体进行介绍。
一个示例中,在获取初始文本集合时,可以采用分布式爬虫的方式获取多台设备上的文本。或者是,通过接入分布式系统中的分布式消息中间件获取海量的文本,进而为后续实体识别模型提供更多的数据支撑。
S202、对初始文本集合中的初始文本进行伪随机采样处理,得到采样后的初始文本集合;其中,采样后的初始文本集合中的初始文本的总个数,小于采样前的初始文本集合中的初始文本的总个数。
示例性地,为了避免后续在聚类过程中,输入聚类模型中的数据量较大,而导致聚类过程耗时较长的问题。可以通过采用伪随机采样的方式对初始文本集合中的初始化文本进行采样处理,进而减少初始文本集合中的初始文本的数量。
一个示例中,可以通过基于预设算法的伪随机函数产生随机数序列,并依据产生的随机数序列从初始文本集合中随机采样,以确保采样后的初始文本集合与采样前的初始文本集合相比,采样前后数据分布一致。
S203、对采样后的初始文本集合中的初始文本进行数据清洗处理,得到处理后的初始文本集合。
示例性地,在采样之后,还会对采样后的初始文本集合中的初始文本进行数据清洗。
一个示例中,在数据清洗时,会基于预设的文本中存在的特殊符号、不关注的语言内容(此处的语言内容可以包括语言种类,例如,在一些情况下不关注的英文或者其它语言种类的内容等)、表达语义较弱的停用词等预设的信息,在初始文本集合中的初始文本中进行匹配筛选,进而完成对初始文本集合中的初始文本的数据清洗处理。
可以理解的是,本实施例中通过上述对初始文本集合中的初始文本进行伪随机采样以及数据清洗的操作,可以减少后续输入聚类模型的数据量,进而减少数据聚类所耗时长,以缩短得到实体识别模型的时长。此外,通过对采样后的初始文本集合中的初始文本进行数据清洗也可以避免初始文本所包含的停用词、特殊符号等信息影响聚类结果的准确性。
S204、对初始文本进行分词处理,得到分词处理后的初始文本,其中,分词处理后的初始文本中的词语具有词性。
示例性地,本实施例中,在将初始文本输入至聚类模型之前,还需要对初始文本进行向量化表示,以使得聚类模型可以有效识别输入该聚类模型的文本。
在对初始文本进行向量化之前,首先将初始文本进行词语划分,进而得到初始文本对应的词语以及词语所具有的词性。
一个示例中,当初始文本集合中包括多个初始文本时,此时可以将初始文本所对应的分词处理后的词语以及词语所具有的词性按行存储,即每一行存储一个初始文本所对应的分词处理后的词语以及词语具有的词性,以便查找。
S205、对分词处理后的初始文本进行向量化处理,得到待训练的文本集合中的待训练文本。其中,待训练的文本集合中包括多个待训练文本,待训练文本中包括多个字符。待训练的文本集合中的待训练文本中的词语为向量化表示的词语。
示例性地,在对初始文本进行向量化表示时,基于分词后的初始文本,即分词后的初始文本中所包含的词语以及词语所具有的词性,对分词后的初始文本进行向量化处理,进而得到待训练的文本集合中的待训练文本。
可以理解的是,本实施例中基于分词处理后的初始文本所包含的词语以及词语所对应的词性,对分词处理后的初始化文本进行向量化处理,使得向量化后得到的待训练文本可以准确的表达出初始化文本的语义,并且,向量化后得到的待训练文本还为后续待训练的文本集合的聚类提供了数据支撑。
一个示例中,步骤S205可包括以下步骤:
步骤S205的第一步:确定分词处理后的初始文本中的词语的频率信息,其中,频率信息表征词语的出现频率。
示例性地,本实施例中,在对分词处理后的初始文本进行向量化处理时,首先,可以确定初始文本中的词语所对应的频率信息。一个示例中,初始文本中的词语所对应的频率信息可以为词语在该初始文本中所出现的频率。
一个示例中,第一步中的频率信息包括第一频率信息和第二频率信息;其中,第一频率信息表征分词处理后的初始文本中的词语,在该分词处理后的初始文本中的出现频率;第二频率信息表征分词处理后的初始文本中的词语,在初始文本集合中的出现频率。
示例性地,本示例中可以用第一频率信息以及第二频率信息来表征分词处理后的初始文本中的词语的频率信息。
其中,第一频率信息用于表征分词处理后的初始文本中的词语在该分词处理后的初始文本中出现的频率。举例来说,第一频率信息可以通过词频(Term Frequency,简称TF)的计算方式得到。即,可以通过分词处理后的初始文本中的词语在该分词处理后的初始文本中出现的次数与该分词处理后的初始文本中词语的总个数的比值,得到词频所对应的数值。
第二频率信息用于表征分词处理后的初始文本中的词语,在初始文本集合中的出现频率。举例来说,第二频率信息可以通过采用逆文本频率指数(Inverse DocumentFrequency,简称IDF)来表示。此处逆文本频率指数的计算方式与相关技术类似,此处不再赘述。
之后,可以将分词处理后的初始文本中的词语的第一频率信息以及第二频率信息进行点积处理之后,得到的处理结果即可作为分词处理后的初始文本中的词语的频率信息。
一个示例中,在确定分词处理后的初始文本中的词语的频率信息时,可以将每个分词处理后的初始文本中各词语的频率信息所组成的向量设置为相同固定长度的数值型向量。例如,若需要进行向量化处理的分词处理后的初始文本共有1000个,这1000个分词处理后的初始文本中累计包括有3862个不同的词语,则对于每一分词处理后的初始文本,可以该分词处理后的初始文本中各词语的频率信息所组成的向量设置3862维的向量,其中,若某一分词处理后的初始文本中不存在某个词语,则将该词语在向量所对应的位置的值设置为0。
本实施例中,通过结合表征分词处理后的初始文本中的词语,在该分词处理后的初始文本中的出现频率的第一频率信息以及表征分词处理后的初始文本中的词语,在初始文本集合中的出现频率的第二频率信息,作为该词语的频率信息的方式,可以提高对分词处理后的初始文本进行向量化处理的处理结果的有效性。
步骤S205的第二步:根据分词处理后的初始文本中的词语的词性,确定分词处理后的初始文本中的词语的权重信息。
示例性地,由于不同词性的词语对于文本语义的贡献度不同,因此本步骤中,会基于分词处理后的初始文本中的词语的词性,确定该初始文本中所包含的词语的权重信息。
一个示例中,词语所具有的词性对于文本语义的贡献度越高,则该具有该词性的词语的权重信息对应的权重值越大。
一个示例中,可以基于词性以及权重信息之间的对应关系,确定分词处理后的初始文本中的词语对应的权重信息。举例来说,相比于副词、助词、拟声词、感叹词的词性的词语,动词和名词在一个文本中所表征的含义对于文本语义的影响性较大,则在设置权重信息时,可以考虑将动词和名词的权重信息所对应的权重值设置的较高一些。例如,可以将名词的权重值设置为1.6,将副词、助词、拟声词、感叹词所对应的权重值分别设置为0.6、0.5、0.5、0.5。
步骤S205的第三步:对分词处理后的初始文本中的词语的频率信息、以及权重信息进行向量化表示处理,得到待训练的文本集合中的待训练文本。
示例性地,在确定出分词处理后的初始文本中词语的频率信息以及权重信息之后,基于权重信息以及频率信息可以得到待训练的文本集合中的待训练文本。
一个示例中,在基于权重信息以及频率信息可以得到待训练的文本集合中的待训练文本时,可以将权重信息以及频率信息进行点积处理,将点积处理得到的向量作为待训练的文本集合中的待训练文本。
可以理解的是,本实施例中,通过分词处理后的初始文本的所包含的词语的频率信息以及基于词语词性所确定出的权重信息对分词处理后的初始文本进行向量化处理,可以提高向量化处理后的待训练的文本集合中的待训练文本的语义表达效果,进而提高后续聚类结果的准确性。
S206、根据待训练的文本集合中的待训练文本中字符所属于的词语、以及待训练的文本集合中的待训练文本中字符所属于的词语的词性,对待训练的文本集合进行聚类处理,得到文本簇集合,文本簇集合中包括至少一个待处理文本簇;其中,待处理文本簇中包括至少一个待训练文本,待处理文本簇中的待训练文本具有语义相似性。
示例性地,本步骤中,可以基于待训练样本中的词语的词性以及词语所具有的词性,进行聚类处理,使得待训练文本集合中语义相近的待训练文本可以被聚类至同一个待处理的文本簇中。并且在聚类得到的文本簇集合中,包括至少一个待处理文本簇,待处理文本簇中包括至少一个待训练文本。
S207、对文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇。
示例性地,在通过聚类得到文本簇集合之后,还会对文本集合中的待处理文本簇进行剔除处理,进而去除掉文本簇集合中不具有实体信息的待处理的文本簇。
可以理解的是,本实施例中,可以基于待训练文本中所包含的词语以及词语所具有的词性进行聚类处理,得到聚类处理之后的文本簇集合,并且还会对文本簇集合中的待处理文本簇进行剔除处理,进而剔除不具有实体信息的待处理文本簇,为后续实体识别模型的训练提供数据支撑。并且,本实施例中,由于聚类后的待处理文本簇中的待训练文本语义相似,进而可以快速确定出具有实体信息的待处理文本簇。
一个示例中,步骤S207可以通过几种方式实现:
步骤S207的第一种实现方式为:响应于用户的第一触发指令,其中,第一触发指令用于显示文本簇集合中的待处理文本簇的待训练文本,显示第一触发指令所指示的待训练文本;响应于用户的第二触发指令,其中,第二触发指令用于剔除待处理文本簇,第二触发指令所指示的待处理文本簇中的待训练文本不具有实体信息,剔除第二触发指令所指示的待处理文本簇。
示例性地,在对文本簇集合中的待处理文本簇进行剔除处理,电子设备可以基于用户的第一触发指令,向用户显示出文本簇集合中的待处理文本簇所包含的待训练文本。之后,用户可以通过向电子设备输入第二触发指令,以使得电子设备可以基于用户输入的第二触发指令将文本簇集合中不具有实体信息的待处理文本簇删除,保留具有实体信息的待处理文本簇。
可以理解的是,本实施例中,电子设备可以基于用户输入的指令对文本簇集合中的待处理文本簇进行剔除处理,后续可以将包括实体信息的待处理文本簇用作实体识别模型的训练,以提高实体识别模型的有效性。
一个示例中,第一触发指令用于显示文本簇集合中的待处理文本簇中的前N个待训练文本;其中,N为大于等于1的正整数。
可以理解的是,由于同一待处理文本簇中所包含的待训练文本的语义相近,因此,向用户显示文本簇集合中的待处理文本簇时,仅需要将向用户显示待处理文本簇中所包含的文本簇中的前N个训练样本,进而减少用户需要观测的文本的数量,减少人工消耗。在一些实施例中,考虑到剔除精度也可以在待处理文本簇中随机抽取N个待训练样本,以提高剔除处理的可靠性。
步骤S207的第二种实现方式为:识别文本簇集合中的待处理文本簇中的前N个待训练文本中的实体信息;其中,N为大于等于1的正整数;剔除前N个待训练文本不具有实体信息的待处理文本簇。
示例性地,在本实现方式中,在对聚类后得到的文本簇集合进行剔除处理时,也可以基于电子设备对文本簇集合中的待处理文本簇中的前N个待训练文本中的实体信息进行识别处理。
一个示例中,电子设备在对待训练文本中的实体信息进行识别时,可以基于用户预先收集的常用的实体信息与待训练样本进行匹配,若待训练样本中存在用户预先收集的常用的实体信息,则可以保留该待训练样本所处的待处理文本簇。而对于不包含用户预先收集的常用的实体信息的待训练样本所处的待处理文本簇,可以直接删除,或者直接显示给用户,以便用户可以基于显示的待训练样本进行二次校验,进而减少用户的工作量,提高文本簇集合的剔除效率。
可以理解的是,本实施例中,可以通过电子设备对文本簇集合中的待处理文本簇中的前N个待训练文本中的实体信息进行识别处理,进而完成剔除操作,以减少用户的工作量。并且,电子设备还可以将其确定出的需要剔除的待训练文本簇进行显示,进而由用户进行二次校验,提高文本簇集合的筛选效率。
S208、对待处理文本簇中的待训练文本进行抽取处理,得到待处理文本簇中的待训练文本的实体信息和非实体信息。
示例性地,在对聚类后得到的文本簇的待处理文本簇进行剔除处理之后,对待处理文本簇中的待训练文本进行实体抽取处理,进而确定出待训练文本中的实体信息以及非实体信息。
一个示例中,步骤S208可以通过以下方式实现:根据预设的正则表达式,对待处理文本簇中的待训练文本进行上下文信息的处理,得到待处理文本簇中的待训练文本的实体信息;其中,预设的正则表达式用于指示与文本中的实体信息之间具有上下文关系的上下文信息;待处理文本簇中的待训练文本的实体信息具有实体类别;根据待处理文本簇中的待训练文本的实体信息,确定待处理文本簇中的待训练文本的剩余字符,为待处理文本簇中的待训练文本的非实体信息。
示例性地,由于聚类后的待训练文本簇中的待训练文本具有相似的语义,因此,可以通过构建正则表达式的方式对训练文本中进行抽取。在构建正则表达式时,可以基于待处理文本簇中的待训练文本中的与实体信息的上下文关系来构建用于实体信息抽取的正则表达式。并且,在通过正则表达式对待处理文本簇中的待训练样本进行实体信息抽取时,还会对实体信息的实体类别进行标注。其中,实体类别可以为时间、地点、机构名称等类别,而实体信息可以为用于表征实体类别的字符或者词语。例如,“今天下午”可以作为待训练样本中抽取得到的实体信息,并且,“今天下午”所属的实体类别可以为时间。在确定出待处理文本簇中的待训练文本的实体信息之后,将待训练文本中除实体信息外的剩余字符,作为该待训练样本中的非实体信息。
一个示例中,在对待处理文本簇中的待训练样本的实体信息以及非实体信息进行提取时,还可以对识别出的实体信息进行标记。在标注时,属于不同实体类别的实体信息可以采用不同的标记方式。
一个示例中,在通过构建正则表达式的方式确定实体信息以及非实体信息时,还可以人工对确定出实体信息进行验证,以确保实体信息与非实体信息确定的准确性。
举例来说,可以将实体信息采用“[[]]”进行标记,并采用实体信息所对应的实体类别的英文对该实体信息所属的类别进行标记。例如,当一个训练样本中包括识别出的实体信息“今天下午”,且实体信息的实体类别为时间时,此时可以将上述实体信息通过符号“[[]]”进行标注,并且,同时在符号“[[]]”中添加该实体信息对应的实体类别的英文。例如,标记后的结果为“[[time:今天下午]]”,以便后续可以对待训练文本中的实体信息以及非实体信息进行标注处理。此外,当待训练文本中出现标点符号时,可以用预设标点符号对应的标识进行标记。
可以理解的是,本实施例中由于聚类后的待处理文本簇中的待训练样本之间语义相近,因此,可以通过构建正则表达式的方式来识别待处理文本簇中的待训练文本的实体信息以及非实体信息,上述构建正则表达式的容易实现,避免了人工确定待训练文本中的实体信息以及非实体信息耗时较长且准确度较低的问题。
S209、根据待训练文本的实体信息和非实体信息,对待训练文本进行标注处理,得到待训练文本的向量信息;其中,向量信息中包括待训练文本的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息。
示例性地,在确定出待训练文本中的实体信息和非实体信息之后,由于上述训练文本中的实体信息以及非实体信息无法直接用于模型训练,因此还需要对待训练文本中的实体信息以及非实体信息进行序列标注,即标注处理,进而得到训练文本所对应的向量信息。在训练文本所对应的向量信息中,包括待训练文本的字符、待训练文本的实体信息的标注信息和待训练文本的非实体信息的标注信息。
一个示例中,在对待训练文本进行序列标注时,可以采用常用的序列标注标签体系,例如:BIO标注,其中,B代表实体的开头、I代表实体的中间或结尾、O代表非实体;BIOES标注,其中,B代表实体的开头、I代表实体的中间、O代表非实体、E代表实体的结尾、S代表具有单个字符的实体。
一个示例中,待处理文本簇中的待训练文本的实体信息具有实体类别;步骤S209可以通过以下方式实现:根据待训练文本的实体信息的实体类别、以及待训练文本中的字符次序,对待训练文本的实体信息进行标注处理,得到待训练文本的实体信息的标注信息;并根据非实体信息的预设标注符号,对待训练文本的非实体信息进行标注处理,得到待训练文本的非实体信息的标注信息;根据待训练文本中的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息,生成待训练文本的向量信息。
示例性地,确定待训练文本所对应的向量信息时,在该实现方式中,首先可以按照待训练文本中的字符的先后顺序,并基于实体信息中的实体类别,依次对待训练文本中所识别出的实体信息中的字符进行标注,进而确定待训练文本中的实体信息的标注信息。之后,按照预先设置的非实体信息的预设标注符号,对训练样本中的非实体信息中的每一字符进行标注,得到待训练文本中的非实体信息的标注信息。基于待训练文本中的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息就可以确定出待训练文本的向量信息。
举例来说,若待训练文本为“我爸爸今天下午会来给我送衣服”,训练文本中“今天下午”为实体信息,该实体信息的实体类别为时间。当采用BIOES标注方式进行序列标注时,此时,标注结果为:“我/O爸/O爸/O今/B_TIME天/I_TIME下/I_TIME午/E_TIME会/O来/O给/O我/O送/O衣/O服/O”,其中,B_TIME用于表示实体类别为时间的首个实体字符,I_TIME用于表示实体类别为时间的中间的实体字符,E_TIME用于表示实体类别为时间的结尾的实体字符。
可以理解的是,本实施例中通过对待训练文本中的实体信息以及非实体信息进行标注处理之后,可作为后续实体识别模型的训练样本,提高实体识别模型训练的准确性。
一个示例中,可以待训练文本中的字符顺序,将训练文本的实体信息的标注信息以及训练文本的非实体信息的标注信息拼接起来,作为该训练文本对应的向量信息。
一个示例中,步骤“根据待训练文本中的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息,生成待训练文本的向量信息”,中的向量信息中包括字符向量和标注向量;字符向量表征待训练文本的字符;标注向量表征实体信息的标注信息、以及待训练文本的非实体信息的标注信息。
示例性地,本示例中训练样本所对应的向量信息包括训练文本中的字符所对应的字符向量,以及用于表征训练样本中的实体信息和非实体信息的标注向量。进而,后续可以将向量信息中的字符向量作为初始模型的输入,通过比较初始模型的预测结果以及向量信息中的标注向量,不断对初始模型中的参数进行调整,以得到最终的实体识别模型。
可以理解的是,本示例中所提供的向量信息中包括字符向量以及标注向量,以便模型基于预测结果以及标注向量不断进行调整,进而提高实体识别模型训练的训练速度。
一个示例中,步骤“根据待训练文本中的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息,生成待训练文本的字符向量”,可以通过以下方式实现:根据预设的字符字典,确定待训练文本中字符的字符编号;其中,预设的字符字典中包括至少一个字符,字符字典中的字符为至少一个待处理文本簇中的字符,字符字典中的字符不重复;预设的字符字典用于指示字符与字符编号之间的对应关系;根据待训练文本中字符的字符编号,生成待训练文本的字符向量。
示例性地,预设的字符字典中包括至少一个字符,且,字符字典中的字符为待处理文本簇中所包含的字符。此外,在字符字典中字符不会重复,即一个字符只会在字符字典中出现一次,并且字符字典中的字符还具有与其对应的唯一的字符编号。在生成训练文本中的字符向量时,可以将训练文本中的字符,基于字符字典,转换为与字符对应的字符编号,进而得到训练文本对应的字符向量。
一个示例中,预设的字符字典是由待处理文本簇中的全部待训练文本中所包含的字符所组成,且预设的字符字典中所包含的字符不重复。
一个示例中,预设的字符字典中的字符与字符编号之间一一对应,并且字符编号可以采用常用的字符编码方式,此处不做限制。
可以理解的是,本实施例中在将待训练文本中的字符转化为字符向量以便初始模型可以有效识别输入初始模型的输入数据,进而提高实体识别模型的有效性与训练速度。
一个示例中,步骤“根据待训练文本中的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息,生成待训练文本的标注向量”,可以通过以下方式实现:根据预设的标注字典,确定待训练文本的标注数据;其中,标注数据包括实体信息的标注信息的标注编号、以及非实体信息的标注信息的标注编号;预设的标注字典用于指示标注信息与标注编号之间的对应关系;根据待训练文本的标注数据,生成待训练文本的标注向量。
示例性地,本示例中预设的标注字典中包括标注信息与标注编号之间的对应关系。在确定出训练文本中的标注信息之后,可以基于预设的标注字典将标注信息转换为标注数据,其中,标注信息包括训练样本的实体标注信息以及非实体标注信息,标注数据中包括实体信息的标注信息的标注编号、以及非实体信息的标注信息的标注编号。之后,基于得到的实体标注信息对应的标注编号以及非实体标注信息的标注编号,将上述编号依据训练文本中的字符顺序进行排列之后,可以得到训练文本对应的标注向量。
可以理解的是,本实施例中基于预设标注字典中的标注编号与标注信息之间的对应关系,将待训练文本的标注信息转换为标注编号,并将待训练文本对应的标注编号作为实体识别模型的训练数据,以便实体识别模型可以准确识别训练数据,进而提高实体识别模型训练的有效性。
S210、根据待训练文本的向量信息,对初始模型进行训练,得到实体识别模型,其中,实体识别模型用于识别待识别文本中的实体信息。
示例性地,在确定出待训练文本的向量信息之后,可以将训练文本的向量信息作为初始模型的训练集对初始模型进行训练,进而得到实体识别模型。
一个示例中,初始模型的结构可以选择条件随机场模型或者其它用于自然语言处理的模型,此处不做具体限制。
一个示例中,步骤S210可以包括以下步骤:
第一步骤:基于初始模型中的双向长短期记忆网络层,对待训练文本的向量信息进行上下文信息的捕获处理,得到上下文特征信息;其中,上下文特征信息表征待训练文本的上下文信息;基于初始模型中的全连接层,对上下文特征信息进行处理,得到概率信息,其中,概率信息表征待训练文本中的字符在不同的标注信息下的概率值的分布情况。
第二步骤:根据概率信息,确定预测结果,其中,预测结果用于指示待训练文本中的实体信息和非实体信息。
第三步骤:根据预测结果、以及待训练文本的向量信息中的标注信息,对初始模型的参数进行调整,得到实体识别模型。
示例性地,在本实施例中,构建的初始模型中包括:双向长短期记忆(Bi-directional Long Short-Term Memory,简称BiLSTM)网络层以及全连接层。其中,双向长短期记忆网络层可以对输入至双向长短期记忆网络层待训练文本的向量信息的上下文信息进行分析,并且,双向长短期记忆网络层会从待训练文本的向量信息中按照字符顺序的方向以及按照字符顺序的逆向这两个方向对待训练样本的向量信息进行分析,得到表征训练文本的上下文信息的上下文特征信息,从而使得后续得到的实体识别结果更加准确。之后,双向长短期记忆网络层输出的上下文特征信息作为全连接层的输入,基于全连接层的处理,将上下文特征信息处理为待训练文本的概率信息,其中,概率信息中包括训练样本中的字符在不同标注信息下的概率值。
在确定出训练样本的概率信息之后,可以基于概率信息确定出初始模型当前对训练样本中实体信息以及非实体信息的预测结果。并通过比对初始模型的预测结果以及对待训练文本的向量信息,不断对初始模型中的参数进行调整,进而得到用于识别实体信息的实体识别模型。
可以理解的是,本实施例中通过采用双向长短期记忆网络层对待训练文本的向量信息进行上下文特征信息的分析和处理,进而通过全连接层确定出待训练文本的概率信息。由于双向长短期记忆网络可以沿着待训练样本中的不同的字符顺序对待训练样本的向量信息进行分析,进而使得确定出的实体识别模型的识别结果更加准确。
一个示例中,在双向长短期记忆网络层之前还包括嵌入(embedding)层,其中,嵌入层用于对输入的待训练文本的字符向量进行数值化处理,得到数值化向量,进而避免当字符字典中的字符较多时,直接输入字符向量导致模型的计算复杂度较高的问题。
在一些实施例中,步骤S210的第三步骤可以通过以下方式实现:
第三步骤的第一实现方式包括:基于初始模型中的条件随机场层,对概率信息进行处理,得到状态转移矩阵;其中,状态转移矩阵表征待训练文本中的字符在不同的标注信息下转移至相邻字符的标注信息的转移概率;对状态转移矩阵进行解码处理,得到预测结果。
示例性地,在本实现方式中,当通过全连接层确定出概率信息之后,可以在将概率信息输入至条件随机场(Conditional Random Fields,简称CRF)层中,条件随机场层会基于输入的概率信息,得到训练文本中的字符在不同标注信息下转移至相邻字符的标注信息的转移概率值,即在确定字符所对应的标注信息式,还考虑了待训练文本字符之间前后的联系,举例来说,若在概率信息中,某一字符所对应的最大概率值所对应的标注信息为实体信息的中间字符,但是在该字符之前,没有被确定为实体信息的起始字符的字符,此时,若直接将实体信息的中间字符作为该字符的标注信息,则可能出现错误。因此,本实现方式中,还考虑了字符与相邻字符之间的概率转移值,进而提高实体识别模型预测的准确性。在基于条件随机场层确定出状态转移矩阵时,通过对状态转移矩阵进行解码处理,在状态转移矩阵中选择待训练文本中的字符所对应的标注信息,进而得到待训练文本的预测结果。
一个示例中,可以采用维特比解码的方式对条件随机场层输出的状态转移矩阵进行解码,确定出待训练样本的预测结果。
一个示例中,字符的相邻字符可以为训练文本中,字符的后一个字符。
可以理解的是,在确定字符所对应的标注信息时,还考虑了字符以及与该字符相邻的相邻字符之间的概率转移关系,以使得最终确定出实体识别模型的准确度更高。
第三步骤的第二种实现方式包括:针对待训练文本中的字符,确定概率信息中与该字符对应的最大概率值下的标注信息,为该字符的标注信息;根据所得到的标注信息,生成预测结果。
示例性地,在本实现方式中,在基于概率信息确定预测结果时,由于概率信息中包括有字符在不同标注信息下的概率值的分布情况,因此,在确定待训练文本中的字符对应的标注信息时,可以将字符所对应的概率值的分布情况中概率值最大的标注信息作为该字符对应的标注信息。进而,基于待训练文本中的字符的标注信息,确定出该待训练文本对应的预测结果。
可以理解的是,通过将字符所对应的概率值的分布情况中概率值最大的标注信息作为该字符对应的标注信息,提高了模型的训练速度。
本实施例中,为了获取实体识别模型,在对初始模型训练时,通过对待处理文本簇中的待训练文本进行抽取处理,确定出待处理文本簇的待训练文本的实体信息以及非实体信息;基于待训练文本的实体信息和非实体信息,对待训练文本进行标注处理,确定出待训练文本中的向量信息;并基于向量信息对初始模型进行训练。通过上述方式,可以将待训练文本转化为初始模型可以识别的向量信息,进而提高训练得到的实体识别模型的有效性。
举例来说,以下为一个初始模型的结构以及模型参数进行。实体识别模型输入为待训练文本的字符对应的编号组成的字符向量。并且,本实施例中可以采用批量训练的模式,即同时输入多个待训练文本对应的字符向量进行训练。此外,在批量训练时,可以设置同一批量中所包含的待训练样本的字符向量的数量为32,且字符向量所对应的待训练文本中的字符数量为80个字符,此时,输入初始模型的向量维度为[32,80]。
初始模型中设置有嵌入层。嵌入层的可以将输入的字符向量转化为数值向量,进而减少模型的计算量。该层参数可以进行随机初始化,并随着初始模型的训练更新,不断调整嵌入层的参数。一个示例中,可以将嵌入层的维度设置为50至300维,本实施例中将嵌入层维度设置为100,进而确保后续双向长短期记忆网络层可以对待训练文本进行有效的识别。
在初始模型中还设置有双向长短期记忆网络层,该网络层用于基于嵌入层输出的数值向量,进行上下文特征信息捕捉。本实施例中,双向长短期记忆网络层中包括的正向长短期记忆网络层以及反向长短期记忆网络层中的神经元的数量均设置为200,正向长短期记忆网络层与反向长短期记忆网络层分别接收嵌入层输出的数值向量并且经过处理之后,将正向长短期记忆网络层与反向长短期记忆网络层的输出结果串行合并之后,得到的该双向长短期记忆网络层的输出数据的维度为:[32,80,400]。
在初始模型中还包括全连接层,其中全连接层用于对双向长短期记忆网络层的输出数据进行降维处理,在设置该层中神经元的数量时,可以基于预设的标注字典中所包含的标注信息的数量进行设置,本实施例中标注信息的数量为7,进而,该层输出的数据维度为:[32,80,7]。进而,通过全连接层可以确定出待训练样本中的字符在不同标注信息下的概率值。
在初始模型中还包括条件随机场层。条件随机场层可以基于全连接层输出的概率信息确定待训练样本中字符在不同标注信息下转移至相邻字符的标注信息的转移概率所组成的状态转移矩阵。进而,该层输出的数据维度为:[32,80,7,7]。
在初始模型中还包括维比特解码层。该层可以基于条件随机场层输出的状态转移矩阵确定出输入的待训练文本对应的预测结果,其中,预测结果可用于指示出待训练文本中的实体信息以及非实体信息。
图3是根据本公开第三实施例的示意图,如图3所示,本公开实施例的基于文本的实体信息识别方法,包括:
S301、获取待识别文本。
示例性地,本实施例的执行主体可以为基于文本的实体信息识别装置(下文简称为识别装置),识别装置可以为与训练装置相同的装置,也可以为不同的装置,本实施例不做限定。
例如,若识别装置为与训练装置不同的装置,则可以由训练装置执行如上任意实施例的应用于实体信息识别的模型训练方法,得到实体识别模型后,将实体识别模型传输给识别装置,由识别装置对实体识别模型进行部署,并基于实体识别模型识别待识别文本中的实体信息。
S302、根据实体识别模型对待识别文本进行识别处理,得到待识别文本中的实体信息;其中,实体识别模型基于上述任一实施例的应用于实体信息识别的模型训练方法所得到。
基于上述分析,由于实体识别模型适用于抽取海量数据中的实体,因此,在基于该实体识别模型对待识别文本进行分析时,所得到的识别结果可靠性较高,且具有较高的准确性。
在一些实施例中,在执行步骤S302时,可以通过以下步骤实现:将待识别文本输入至实体识别模型中,输出待识别文本中词语的标注编号;根据预设的标注字典,其中,预设的标注字典用于指示标注信息与标注编号之间的对应关系,确定与待识别文本中词语的标注编号对应的标注信息;其中,标注信息用于指示出实体信息或非实体信息;根据所确定的标注信息,确定待识别文本中的实体信息。
示例性地,本实施例中,在对待识别文本进行识别时,可以将待识别文本作为实体识别模型的输入,之后,基于实体识别模型输出待识别文本中词语的标注编号。在得到词语的标注编号时,由于预设的标注字典中预先存储有标注编号与标注信息之间的对应关系,进而可以基于预设的标注字典确定出标注编号所对应的标注信息;并基于标注信息可以确定出待识别文本中的实体信息。
一个示例中,在输入待识别文本时,也可以基于预设的字符字典,将待识别文本中的字符转换为字符对应的字符编号,进而将待识别文本向量化为待识别文本中字符对应的字符编号所组成的字符向量。
可以理解的是,本实施例中,实体识别模型在输出待识别文本对应的标注编号时,还会基于预设的标注字典确定出标注编号对应的标注信息来确定待训练文本中的实体信息。进而,通过上述方法,可以减少实体识别模型的数据处理量,提高模型的处理速度。
图4是根据本公开第四实施例的示意图,如图4所示,本公开实施例提供的应用于实体信息识别的模型训练装置400,包括:
第一获取单元401,用于获取待训练的文本集合,待训练的文本集合中包括多个待训练文本,待训练文本中包括多个字符。
聚类单元402,用于对待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,待处理文本簇中包括至少一个待训练文本,待处理文本簇中的待训练文本具有语义相似性;待处理文本簇中的待训练文本具有至少一个实体信息。
训练单元403,用于根据待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,实体识别模型用于识别待识别文本中的实体信息。
示例性地,本实施例的装置,可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
图5是根据本公开第五实施例的示意图,如图5所示,本公开实施例提供的应用于实体信息识别的模型训练装置500,包括:
第一获取单元501,用于获取待训练的文本集合,待训练的文本集合中包括多个待训练文本,待训练文本中包括多个字符。
聚类单元502,用于对待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,待处理文本簇中包括至少一个待训练文本,待处理文本簇中的待训练文本具有语义相似性;待处理文本簇中的待训练文本具有至少一个实体信息。
训练单元503,用于根据待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,实体识别模型用于识别待识别文本中的实体信息。
一个示例中,聚类单元502,包括:
聚类模块5021,用于根据待训练的文本集合中的待训练文本中字符所属于的词语、以及待训练的文本集合中的待训练文本中字符所属于的词语的词性,对待训练的文本集合进行聚类处理,得到文本簇集合,文本簇集合中包括至少一个待处理文本簇。
剔除模块5022,用于对文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇。
一个示例中,剔除模块5022,包括:
第一显示子模块50221,用于响应于用户的第一触发指令,其中,第一触发指令用于显示文本簇集合中的待处理文本簇的待训练文本,显示第一触发指令所指示的待训练文本。
第二显示子模块50222,用于响应于用户的第二触发指令,其中,第二触发指令用于剔除待处理文本簇,第二触发指令所指示的待处理文本簇中的待训练文本不具有实体信息,剔除第二触发指令所指示的待处理文本簇。
一个示例中,第一触发指令用于显示文本簇集合中的待处理文本簇中的前N个待训练文本;其中,N为大于等于1的正整数。
一个示例中,其中,剔除模块5022,包括:
识别子模块,用于识别文本簇集合中的待处理文本簇中的前N个待训练文本中的实体信息;其中,N为大于等于1的正整数。
剔除子模块,用于剔除前N个待训练文本不具有实体信息的待处理文本簇。
一个示例中,训练单元503,包括:
抽取模块5031,用于对待处理文本簇中的待训练文本进行抽取处理,得到待处理文本簇中的待训练文本的实体信息和非实体信息。
标注模块5032,用于根据待训练文本的实体信息和非实体信息,对待训练文本进行标注处理,得到待训练文本的向量信息;其中,向量信息中包括待训练文本的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息。
训练模块5033,用于根据待训练文本的向量信息,对初始模型进行训练,得到实体识别模型。
一个示例中,抽取模块5031,包括:
处理子模块50311,用于根据预设的正则表达式,对待处理文本簇中的待训练文本进行上下文信息的处理,得到待处理文本簇中的待训练文本的实体信息;其中,预设的正则表达式用于指示与文本中的实体信息之间具有上下文关系的上下文信息;待处理文本簇中的待训练文本的实体信息具有实体类别。
第一确定子模块50312,用于根据待处理文本簇中的待训练文本的实体信息,确定待处理文本簇中的待训练文本的剩余字符,为待处理文本簇中的待训练文本的非实体信息。
一个示例中,待处理文本簇中的待训练文本的实体信息具有实体类别;标注模块5032,包括:
第一生成子模块50321,用于根据待训练文本的实体信息的实体类别、以及待训练文本中的字符次序,对待训练文本的实体信息进行标注处理,得到待训练文本的实体信息的标注信息。
第二生成子模块50322,用于根据非实体信息的预设标注符号,对待训练文本的非实体信息进行标注处理,得到待训练文本的非实体信息的标注信息。
第三生成子模块50323,用于根据待训练文本中的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息,生成待训练文本的向量信息。
一个示例中,向量信息中包括字符向量和标注向量。
其中,字符向量表征待训练文本的字符;标注向量表征实体信息的标注信息、以及待训练文本的非实体信息的标注信息。
一个示例中,第三生成子模块50323,具体用于:
根据预设的字符字典,确定待训练文本中字符的字符编号;其中,预设的字符字典中包括至少一个字符,字符字典中的字符为至少一个待处理文本簇中的字符,字符字典中的字符不重复;预设的字符字典用于指示字符与字符编号之间的对应关系。
根据待训练文本中字符的字符编号,生成待训练文本的字符向量。
一个示例中,第三生成子模块50323,具体用于:
根据预设的标注字典,确定待训练文本的标注数据;其中,标注数据包括实体信息的标注信息的标注编号、以及非实体信息的标注信息的标注编号;预设的标注字典用于指示标注信息与标注编号之间的对应关系。
根据待训练文本的标注数据,生成待训练文本的标注向量。
一个示例中,训练模块5033,包括:
第一获取子模块50331,用于基于初始模型中的双向长短期记忆网络层,对待训练文本的向量信息进行上下文信息的捕获处理,得到上下文特征信息;其中,上下文特征信息表征待训练文本的上下文信息。
第二获取子模块50332,用于基于初始模型中的全连接层,对上下文特征信息进行处理,得到概率信息,其中,概率信息表征待训练文本中的字符在不同的标注信息下的概率值的分布情况;
第二确定子模块50333,用于根据概率信息,确定预测结果,其中,预测结果用于指示待训练文本中的实体信息和非实体信息。
调整子模块50334,用于根据预测结果、以及待训练文本的向量信息中的标注信息,对初始模型的参数进行调整,得到实体识别模型。
一个示例中,第二确定子模块50333,具体用于:
基于初始模型中的条件随机场层,对概率信息进行处理,得到状态转移矩阵;其中,状态转移矩阵表征待训练文本中的字符在不同的标注信息下转移至相邻字符的标注信息的转移概率。
对状态转移矩阵进行解码处理,得到预测结果。
一个示例中,第二确定子模块50333,具体用于:
针对待训练文本中的字符,确定概率信息中与该字符对应的最大概率值下的标注信息,为该字符的标注信息。
根据所得到的标注信息,生成预测结果。
一个示例中,待训练的文本集合中的待训练文本中的词语为向量化表示的词语;第一获取单元501,包括:
获取模块5011,用于获取初始文本集合,初始文本集合中包括多个初始文本。
分词模块5012,用于对初始文本进行分词处理,得到分词处理后的初始文本,其中,分词处理后的初始文本中的词语具有词性。
处理模块5013,用于对分词处理后的初始文本进行向量化处理,得到待训练的文本集合中的待训练文本。
一个示例中,处理模块5013,包括:
第三确定子模块50131,用于确定分词处理后的初始文本中的词语的频率信息,其中,频率信息表征词语的出现频率。
第四确定子模块50132,用于根据分词处理后的初始文本中的词语的词性,确定分词处理后的初始文本中的词语的权重信息。
第五确定子模块50133,用于对分词处理后的初始文本中的词语的频率信息、以及权重信息进行向量化表示处理,得到待训练的文本集合中的待训练文本。
一个示例中,频率信息包括第一频率信息和第二频率信息;
其中,第一频率信息表征分词处理后的初始文本中的词语,在该分词处理后的初始文本中的出现频率;第二频率信息表征分词处理后的初始文本中的词语,在初始文本集合中的出现频率。
一个示例中,本实施例提供的装置,还包括:
采样模块5014,用于在分词模块5012对初始文本进行分词处理,得到分词处理后的初始文本之前,对初始文本集合中的初始文本进行伪随机采样处理,得到采样后的初始文本集合;其中,采样后的初始文本集合中的初始文本的总个数,小于采样前的初始文本集合中的初始文本的总个数。
清洗模块5015,用于对采样后的初始文本集合中的初始文本进行数据清洗处理,得到处理后的初始文本集合。
示例性地,本实施例的装置,可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
图6是根据本公开第六实施例的示意图,如图6所示,本公开实施例的基于文本的实体信息识别装置600,包括:
第二获取单元601,用于获取待识别文本。
处理单元602,用于根据实体识别模型对待识别文本进行识别处理,得到待识别文本中的实体信息。
其中,实体识别模型为根据上述任一实施例的提供的应用于实体信息识别的模型训练装置所得到的模型。
示例性地,本实施例的装置,可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
图7是根据本公开第七实施例的示意图,如图7所示,本公开实施例的基于文本的实体信息识别装置700,包括:
第二获取单元701,用于获取待识别文本。
处理单元702,用于根据实体识别模型对待识别文本进行识别处理,得到待识别文本中的实体信息。
其中,实体识别模型为根据上述任一实施例的提供的应用于实体信息识别的模型训练装置所得到的模型。
一个示例中,处理单元702,包括:
输出模块7021,用于将待识别文本输入至实体识别模型中,输出待识别文本中词语的标注编号。
第一确定模块7022,用于根据预设的标注字典,其中,预设的标注字典用于指示标注信息与标注编号之间的对应关系,确定与待识别文本中词语的标注编号对应的标注信息;其中,标注信息用于指示出实体信息或非实体信息。
第二确定模块7023,用于根据所确定的标注信息,确定待识别文本中的实体信息。
示例性地,本实施例的装置,可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
图8是根据本公开第八实施例的示意图,如图8所示,本公开中的电子设备800可以包括:处理器801和存储器802。
存储器802,用于存储程序;存储器802,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器802用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器802中。并且上述的计算机程序、计算机指令、数据等可以被处理器801调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器802中。并且上述的计算机程序、计算机指据等可以被处理器801调用。
处理器801,用于执行存储器802存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
具体可以参见前面方法实施例中的相关描述。
处理器801和存储器802可以是独立结构,也可以是集成在一起的集成结构。当处理器801和存储器802是独立结构时,存储器802、处理器801可以通过总线803耦合连接。
本实施例的电子设备可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
根据本公开的实施例,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述任一实施例提供的方案。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如应用于实体信息识别的模型训练方法、或者基于文本的实体信息识别方法。例如,在一些实施例中,应用于实体信息识别的模型训练方法、或者基于文本的实体信息识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的应用于实体信息识别的模型训练方法、或者基于文本的实体信息识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法应用于实体信息识别的模型训练方法、或者基于文本的实体信息识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (43)

1.一种应用于实体信息识别的模型训练方法,包括:
获取待训练的文本集合,所述待训练的文本集合中包括多个待训练文本,所述待训练文本中包括多个字符;
对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,所述待处理文本簇中包括至少一个待训练文本,所述待处理文本簇中的待训练文本具有语义相似性;所述待处理文本簇中的待训练文本具有至少一个实体信息;
根据所述待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,所述实体识别模型用于识别待识别文本中的实体信息。
2.根据权利要求1所述的方法,其中,对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,包括:
根据所述待训练的文本集合中的待训练文本中字符所属于的词语、以及所述待训练的文本集合中的待训练文本中字符所属于的词语的词性,对所述待训练的文本集合进行聚类处理,得到文本簇集合,所述文本簇集合中包括至少一个待处理文本簇;
对所述文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇。
3.根据权利要求2所述的方法,其中,对所述文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇,包括:
响应于用户的第一触发指令,其中,所述第一触发指令用于显示所述文本簇集合中的待处理文本簇的待训练文本,显示所述第一触发指令所指示的待训练文本;
响应于用户的第二触发指令,其中,所述第二触发指令用于剔除待处理文本簇,所述第二触发指令所指示的待处理文本簇中的待训练文本不具有实体信息,剔除所述第二触发指令所指示的待处理文本簇。
4.根据权利要求3所述的方法,其中,所述第一触发指令用于显示所述文本簇集合中的待处理文本簇中的前N个待训练文本;其中,N为大于等于1的正整数。
5.根据权利要求2所述的方法,其中,对所述文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇,包括:
识别所述文本簇集合中的待处理文本簇中的前N个待训练文本中的实体信息;其中,N为大于等于1的正整数;
剔除前N个待训练文本不具有实体信息的待处理文本簇。
6.根据权利要求1-5任一项所述的方法,其中,根据所述待处理文本簇,对初始模型进行训练,得到实体识别模型,包括:
对所述待处理文本簇中的待训练文本进行抽取处理,得到所述待处理文本簇中的待训练文本的实体信息和非实体信息;
根据所述待训练文本的实体信息和非实体信息,对所述待训练文本进行标注处理,得到所述待训练文本的向量信息;其中,所述向量信息中包括待训练文本的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息;
根据所述待训练文本的向量信息,对所述初始模型进行训练,得到所述实体识别模型。
7.根据权利要求6所述的方法,其中,对所述待处理文本簇中的待训练文本进行抽取处理,得到所述待处理文本簇中的待训练文本的实体信息和非实体信息,包括:
根据预设的正则表达式,对所述待处理文本簇中的待训练文本进行上下文信息的处理,得到所述待处理文本簇中的待训练文本的实体信息;其中,所述预设的正则表达式用于指示与文本中的实体信息之间具有上下文关系的上下文信息;所述待处理文本簇中的待训练文本的实体信息具有实体类别;
根据所述待处理文本簇中的待训练文本的实体信息,确定所述待处理文本簇中的待训练文本的剩余字符,为所述待处理文本簇中的待训练文本的非实体信息。
8.根据权利要求6或7所述的方法,其中,所述待处理文本簇中的待训练文本的实体信息具有实体类别;根据所述待训练文本的实体信息和非实体信息,对所述待训练文本进行标注处理,得到所述待训练文本的向量信息,包括:
根据所述待训练文本的实体信息的实体类别、以及所述待训练文本中的字符次序,对所述待训练文本的实体信息进行标注处理,得到所述待训练文本的实体信息的标注信息;并根据非实体信息的预设标注符号,对所述待训练文本的非实体信息进行标注处理,得到所述待训练文本的非实体信息的标注信息;
根据所述待训练文本中的字符、所述待训练文本的实体信息的标注信息、以及所述待训练文本的非实体信息的标注信息,生成所述待训练文本的向量信息。
9.根据权利要求8所述的方法,其中,所述向量信息中包括字符向量和标注向量;
其中,所述字符向量表征待训练文本的字符;所述标注向量表征实体信息的标注信息、以及待训练文本的非实体信息的标注信息。
10.根据权利要求9所述的方法,其中,生成所述待训练文本的字符向量,包括:
根据预设的字符字典,确定所述待训练文本中字符的字符编号;其中,所述预设的字符字典中包括至少一个字符,所述字符字典中的字符为所述至少一个待处理文本簇中的字符,所述字符字典中的字符不重复;所述预设的字符字典用于指示字符与字符编号之间的对应关系;
根据所述待训练文本中字符的字符编号,生成所述待训练文本的字符向量。
11.根据权利要求9或10所述的方法,其中,生成所述待训练文本的标注向量,包括:
根据预设的标注字典,确定所述待训练文本的标注数据;其中,所述标注数据包括实体信息的标注信息的标注编号、以及非实体信息的标注信息的标注编号;所述预设的标注字典用于指示标注信息与标注编号之间的对应关系;
根据所述待训练文本的标注数据,生成所述待训练文本的标注向量。
12.根据权利要求6-11任一项所述的方法,其中,根据所述待训练文本的向量信息,对所述初始模型进行训练,得到所述实体识别模型,包括:
基于所述初始模型中的双向长短期记忆网络层,对所述待训练文本的向量信息进行上下文信息的捕获处理,得到上下文特征信息;其中,所述上下文特征信息表征所述待训练文本的上下文信息;
基于所述初始模型中的全连接层,对所述上下文特征信息进行处理,得到概率信息,其中,所述概率信息表征待训练文本中的字符在不同的标注信息下的概率值的分布情况;
根据所述概率信息,确定预测结果,其中,所述预测结果用于指示所述待训练文本中的实体信息和非实体信息;
根据所述预测结果、以及所述待训练文本的向量信息中的标注信息,对所述初始模型的参数进行调整,得到所述实体识别模型。
13.根据权利要求12所述的方法,其中,根据所述概率信息,确定预测结果,包括:
基于所述初始模型中的条件随机场层,对所述概率信息进行处理,得到状态转移矩阵;其中,所述状态转移矩阵表征待训练文本中的字符在不同的标注信息下转移至相邻字符的标注信息的转移概率;
对所述状态转移矩阵进行解码处理,得到所述预测结果。
14.根据权利要求12所述的方法,其中,根据所述概率信息,确定预测结果,包括:
针对所述待训练文本中的字符,确定所述概率信息中与该字符对应的最大概率值下的标注信息,为该字符的标注信息;
根据所得到的标注信息,生成所述预测结果。
15.根据权利要求1-14任一项所述的方法,其中,所述待训练的文本集合中的待训练文本中的词语为向量化表示的词语;所述获取待训练的文本集合,包括:
获取初始文本集合,所述初始文本集合中包括多个初始文本;
对所述初始文本进行分词处理,得到分词处理后的初始文本,其中,所述分词处理后的初始文本中的词语具有词性;
对所述分词处理后的初始文本进行向量化处理,得到所述待训练的文本集合中的待训练文本。
16.根据权利要求15所述的方法,其中,对所述分词处理后的初始文本进行向量化处理,得到所述待训练的文本集合中的待训练文本,包括:
确定所述分词处理后的初始文本中的词语的频率信息,其中,所述频率信息表征词语的出现频率;
根据所述分词处理后的初始文本中的词语的词性,确定所述分词处理后的初始文本中的词语的权重信息;
对所述分词处理后的初始文本中的词语的频率信息、以及权重信息进行向量化表示处理,得到所述待训练的文本集合中的待训练文本。
17.根据权利要求16所述的方法,其中,所述频率信息包括第一频率信息和第二频率信息;
其中,所述第一频率信息表征分词处理后的初始文本中的词语,在该分词处理后的初始文本中的出现频率;所述第二频率信息表征分词处理后的初始文本中的词语,在所述初始文本集合中的出现频率。
18.根据权利要求15-17任一项所述的方法,其中,在对所述初始文本进行分词处理,得到分词处理后的初始文本之前,还包括:
对所述初始文本集合中的初始文本进行伪随机采样处理,得到采样后的初始文本集合;其中,所述采样后的初始文本集合中的初始文本的总个数,小于采样前的初始文本集合中的初始文本的总个数;
对所述采样后的初始文本集合中的初始文本进行数据清洗处理,得到处理后的初始文本集合。
19.一种基于文本的实体信息识别方法,包括:
获取待识别文本;
根据实体识别模型对所述待识别文本进行识别处理,得到所述待识别文本中的实体信息;
其中,所述实体识别模型为根据权利要求1-18任一项所述的方法所得到的模型。
20.根据权利要求19所述的方法,其中,根据实体识别模型对所述待识别文本进行识别处理,得到所述待识别文本中的实体信息,包括:
将所述待识别文本输入至所述实体识别模型中,输出所述待识别文本中词语的标注编号;
根据预设的标注字典,其中,所述预设的标注字典用于指示标注信息与标注编号之间的对应关系,确定与所述待识别文本中词语的标注编号对应的标注信息;其中,所述标注信息用于指示出实体信息或非实体信息;
根据所确定的标注信息,确定所述待识别文本中的实体信息。
21.一种应用于实体信息识别的模型训练装置,包括:
第一获取单元,用于获取待训练的文本集合,所述待训练的文本集合中包括多个待训练文本,所述待训练文本中包括多个字符;
聚类单元,用于对所述待训练的文本集合进行聚类处理,得到至少一个待处理文本簇,其中,所述待处理文本簇中包括至少一个待训练文本,所述待处理文本簇中的待训练文本具有语义相似性;所述待处理文本簇中的待训练文本具有至少一个实体信息;
训练单元,用于根据所述待处理文本簇,对初始模型进行训练,得到实体识别模型;其中,所述实体识别模型用于识别待识别文本中的实体信息。
22.根据权利要求21所述的装置,其中,所述聚类单元,包括:
聚类模块,用于根据所述待训练的文本集合中的待训练文本中字符所属于的词语、以及所述待训练的文本集合中的待训练文本中字符所属于的词语的词性,对所述待训练的文本集合进行聚类处理,得到文本簇集合,所述文本簇集合中包括至少一个待处理文本簇;
剔除模块,用于对所述文本簇集合中的待处理文本簇进行剔除处理,得到具有至少一个实体信息的待处理文本簇。
23.根据权利要求22所述的装置,其中,所述剔除模块,包括:
第一显示子模块,用于响应于用户的第一触发指令,其中,所述第一触发指令用于显示所述文本簇集合中的待处理文本簇的待训练文本,显示所述第一触发指令所指示的待训练文本;
第二显示子模块,用于响应于用户的第二触发指令,其中,所述第二触发指令用于剔除待处理文本簇,所述第二触发指令所指示的待处理文本簇中的待训练文本不具有实体信息,剔除所述第二触发指令所指示的待处理文本簇。
24.根据权利要求23所述的装置,其中,所述第一触发指令用于显示所述文本簇集合中的待处理文本簇中的前N个待训练文本;其中,N为大于等于1的正整数。
25.根据权利要求22所述的装置,其中,所述剔除模块,包括:
识别子模块,用于识别所述文本簇集合中的待处理文本簇中的前N个待训练文本中的实体信息;其中,N为大于等于1的正整数;
剔除子模块,用于剔除前N个待训练文本不具有实体信息的待处理文本簇。
26.根据权利要求21-25任一项所述的装置,其中,所述训练单元,包括:
抽取模块,用于对所述待处理文本簇中的待训练文本进行抽取处理,得到所述待处理文本簇中的待训练文本的实体信息和非实体信息;
标注模块,用于根据所述待训练文本的实体信息和非实体信息,对所述待训练文本进行标注处理,得到所述待训练文本的向量信息;其中,所述向量信息中包括待训练文本的字符、待训练文本的实体信息的标注信息、以及待训练文本的非实体信息的标注信息;
训练模块,用于根据所述待训练文本的向量信息,对所述初始模型进行训练,得到所述实体识别模型。
27.根据权利要求26所述的装置,其中,所述抽取模块,包括:
处理子模块,用于根据预设的正则表达式,对所述待处理文本簇中的待训练文本进行上下文信息的处理,得到所述待处理文本簇中的待训练文本的实体信息;其中,所述预设的正则表达式用于指示与文本中的实体信息之间具有上下文关系的上下文信息;所述待处理文本簇中的待训练文本的实体信息具有实体类别;
第一确定子模块,用于根据所述待处理文本簇中的待训练文本的实体信息,确定所述待处理文本簇中的待训练文本的剩余字符,为所述待处理文本簇中的待训练文本的非实体信息。
28.根据权利要求26或27所述的装置,其中,所述待处理文本簇中的待训练文本的实体信息具有实体类别;所述标注模块,包括:
第一生成子模块,用于根据所述待训练文本的实体信息的实体类别、以及所述待训练文本中的字符次序,对所述待训练文本的实体信息进行标注处理,得到所述待训练文本的实体信息的标注信息;
第二生成子模块,用于根据非实体信息的预设标注符号,对所述待训练文本的非实体信息进行标注处理,得到所述待训练文本的非实体信息的标注信息;
第三生成子模块,用于根据所述待训练文本中的字符、所述待训练文本的实体信息的标注信息、以及所述待训练文本的非实体信息的标注信息,生成所述待训练文本的向量信息。
29.根据权利要求28所述的装置,其中,所述向量信息中包括字符向量和标注向量;
其中,所述字符向量表征待训练文本的字符;所述标注向量表征实体信息的标注信息、以及待训练文本的非实体信息的标注信息。
30.根据权利要求29所述的装置,其中,所述第三生成子模块,具体用于:
根据预设的字符字典,确定所述待训练文本中字符的字符编号;其中,所述预设的字符字典中包括至少一个字符,所述字符字典中的字符为所述至少一个待处理文本簇中的字符,所述字符字典中的字符不重复;所述预设的字符字典用于指示字符与字符编号之间的对应关系;
根据所述待训练文本中字符的字符编号,生成所述待训练文本的字符向量。
31.根据权利要求29或30所述的装置,其中,所述第三生成子模块,具体用于:
根据预设的标注字典,确定所述待训练文本的标注数据;其中,所述标注数据包括实体信息的标注信息的标注编号、以及非实体信息的标注信息的标注编号;所述预设的标注字典用于指示标注信息与标注编号之间的对应关系;
根据所述待训练文本的标注数据,生成所述待训练文本的标注向量。
32.根据权利要求26-31任一项所述的装置,其中,所述训练模块,包括:
第一获取子模块,用于基于所述初始模型中的双向长短期记忆网络层,对所述待训练文本的向量信息进行上下文信息的捕获处理,得到上下文特征信息;其中,所述上下文特征信息表征所述待训练文本的上下文信息;
第二获取子模块,用于基于所述初始模型中的全连接层,对所述上下文特征信息进行处理,得到概率信息,其中,所述概率信息表征待训练文本中的字符在不同的标注信息下的概率值的分布情况;
第二确定子模块,用于根据所述概率信息,确定预测结果,其中,所述预测结果用于指示所述待训练文本中的实体信息和非实体信息;
调整子模块,用于根据所述预测结果、以及所述待训练文本的向量信息中的标注信息,对所述初始模型的参数进行调整,得到所述实体识别模型。
33.根据权利要求32所述的装置,其中,所述第二确定子模块,具体用于:
基于所述初始模型中的条件随机场层,对所述概率信息进行处理,得到状态转移矩阵;其中,所述状态转移矩阵表征待训练文本中的字符在不同的标注信息下转移至相邻字符的标注信息的转移概率;
对所述状态转移矩阵进行解码处理,得到所述预测结果。
34.根据权利要求32所述的装置,其中,所述第二确定子模块,具体用于:
针对所述待训练文本中的字符,确定所述概率信息中与该字符对应的最大概率值下的标注信息,为该字符的标注信息;
根据所得到的标注信息,生成所述预测结果。
35.根据权利要求21-34任一项所述的装置,其中,所述待训练的文本集合中的待训练文本中的词语为向量化表示的词语;所述第一获取单元,包括:
获取模块,用于获取初始文本集合,所述初始文本集合中包括多个初始文本;
分词模块,用于对所述初始文本进行分词处理,得到分词处理后的初始文本,其中,所述分词处理后的初始文本中的词语具有词性;
处理模块,用于对所述分词处理后的初始文本进行向量化处理,得到所述待训练的文本集合中的待训练文本。
36.根据权利要求35所述的装置,其中,所述处理模块,包括:
第三确定子模块,用于确定所述分词处理后的初始文本中的词语的频率信息,其中,所述频率信息表征词语的出现频率;
第四确定子模块,用于根据所述分词处理后的初始文本中的词语的词性,确定所述分词处理后的初始文本中的词语的权重信息;
第五确定子模块,用于对所述分词处理后的初始文本中的词语的频率信息、以及权重信息进行向量化表示处理,得到所述待训练的文本集合中的待训练文本。
37.根据权利要求36所述的装置,其中,所述频率信息包括第一频率信息和第二频率信息;
其中,所述第一频率信息表征分词处理后的初始文本中的词语,在该分词处理后的初始文本中的出现频率;所述第二频率信息表征分词处理后的初始文本中的词语,在所述初始文本集合中的出现频率。
38.根据权利要求35-37任一项所述的装置,其中,所述装置,还包括:
采样模块,用于在所述分词模块对所述初始文本进行分词处理,得到分词处理后的初始文本之前,对所述初始文本集合中的初始文本进行伪随机采样处理,得到采样后的初始文本集合;其中,所述采样后的初始文本集合中的初始文本的总个数,小于采样前的初始文本集合中的初始文本的总个数;
清洗模块,用于对所述采样后的初始文本集合中的初始文本进行数据清洗处理,得到处理后的初始文本集合。
39.一种基于文本的实体信息识别装置,包括:
第二获取单元,用于获取待识别文本;
处理单元,用于根据实体识别模型对所述待识别文本进行识别处理,得到所述待识别文本中的实体信息;
其中,所述实体识别模型为根据权利要求21-38任一项所述的装置所得到的模型。
40.根据权利要求39所述的装置,其中,所述处理单元,包括:
输出模块,用于将所述待识别文本输入至所述实体识别模型中,输出所述待识别文本中词语的标注编号;
第一确定模块,用于根据预设的标注字典,其中,所述预设的标注字典用于指示标注信息与标注编号之间的对应关系,确定与所述待识别文本中词语的标注编号对应的标注信息;其中,所述标注信息用于指示出实体信息或非实体信息;
第二确定模块,用于根据所确定的标注信息,确定所述待识别文本中的实体信息。
41.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-20中任一项所述的方法。
42.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-20中任一项所述的方法。
43.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-20中任一项所述方法的步骤。
CN202210266132.3A 2022-03-17 2022-03-17 应用于实体信息识别的模型训练方法、装置和设备 Pending CN114647727A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210266132.3A CN114647727A (zh) 2022-03-17 2022-03-17 应用于实体信息识别的模型训练方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210266132.3A CN114647727A (zh) 2022-03-17 2022-03-17 应用于实体信息识别的模型训练方法、装置和设备

Publications (1)

Publication Number Publication Date
CN114647727A true CN114647727A (zh) 2022-06-21

Family

ID=81995402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210266132.3A Pending CN114647727A (zh) 2022-03-17 2022-03-17 应用于实体信息识别的模型训练方法、装置和设备

Country Status (1)

Country Link
CN (1) CN114647727A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089586A (zh) * 2023-02-10 2023-05-09 百度在线网络技术(北京)有限公司 基于文本的问题生成方法及问题生成模型的训练方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193959A (zh) * 2017-05-24 2017-09-22 南京大学 一种面向纯文本的企业实体分类方法
CN107506418A (zh) * 2017-08-16 2017-12-22 吉林大学 一种在线流数据近似处理方法及装置
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法
CN110374907A (zh) * 2019-07-15 2019-10-25 山东浪潮人工智能研究院有限公司 一种基于概念漂移的煤矿风机时序数据采样方法及工具
CN110909548A (zh) * 2019-10-10 2020-03-24 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
WO2020193966A1 (en) * 2019-03-26 2020-10-01 Benevolentai Technology Limited Name entity recognition with deep learning
CN112818689A (zh) * 2019-11-15 2021-05-18 马上消费金融股份有限公司 一种实体识别方法、模型训练方法及装置
CN113010638A (zh) * 2021-02-25 2021-06-22 北京金堤征信服务有限公司 实体识别模型生成方法及装置、实体提取方法及装置
CN113076749A (zh) * 2021-04-19 2021-07-06 上海云绅智能科技有限公司 一种文本识别方法和系统
CN113392179A (zh) * 2020-12-21 2021-09-14 腾讯科技(深圳)有限公司 文本标注方法及装置、电子设备、存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193959A (zh) * 2017-05-24 2017-09-22 南京大学 一种面向纯文本的企业实体分类方法
CN107506418A (zh) * 2017-08-16 2017-12-22 吉林大学 一种在线流数据近似处理方法及装置
WO2020193966A1 (en) * 2019-03-26 2020-10-01 Benevolentai Technology Limited Name entity recognition with deep learning
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法
CN110374907A (zh) * 2019-07-15 2019-10-25 山东浪潮人工智能研究院有限公司 一种基于概念漂移的煤矿风机时序数据采样方法及工具
CN110909548A (zh) * 2019-10-10 2020-03-24 平安科技(深圳)有限公司 中文命名实体识别方法、装置及计算机可读存储介质
CN112818689A (zh) * 2019-11-15 2021-05-18 马上消费金融股份有限公司 一种实体识别方法、模型训练方法及装置
CN113392179A (zh) * 2020-12-21 2021-09-14 腾讯科技(深圳)有限公司 文本标注方法及装置、电子设备、存储介质
CN113010638A (zh) * 2021-02-25 2021-06-22 北京金堤征信服务有限公司 实体识别模型生成方法及装置、实体提取方法及装置
CN113076749A (zh) * 2021-04-19 2021-07-06 上海云绅智能科技有限公司 一种文本识别方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089586A (zh) * 2023-02-10 2023-05-09 百度在线网络技术(北京)有限公司 基于文本的问题生成方法及问题生成模型的训练方法
CN116089586B (zh) * 2023-02-10 2023-11-14 百度在线网络技术(北京)有限公司 基于文本的问题生成方法及问题生成模型的训练方法

Similar Documents

Publication Publication Date Title
CN110020422B (zh) 特征词的确定方法、装置和服务器
US10755048B2 (en) Artificial intelligence based method and apparatus for segmenting sentence
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN112784589A (zh) 一种训练样本的生成方法、装置及电子设备
CN115130581A (zh) 样本生成方法、训练方法、数据处理方法以及电子设备
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN114647727A (zh) 应用于实体信息识别的模型训练方法、装置和设备
US20230052623A1 (en) Word mining method and apparatus, electronic device and readable storage medium
CN116467461A (zh) 应用于配电网的数据处理方法、装置、设备及介质
CN115600592A (zh) 文本内容的关键信息提取方法、装置、设备及介质
CN115952258A (zh) 政务标签库的生成方法、政务文本的标签确定方法和装置
CN115909376A (zh) 文本识别方法、文本识别模型训练方法、装置及存储介质
CN114611521A (zh) 一种实体识别方法、装置、设备及存储介质
CN114416990A (zh) 对象关系网络的构建方法、装置和电子设备
CN114417862A (zh) 文本匹配方法、文本匹配模型的训练方法和装置
CN114491030A (zh) 技能标签的抽取、候选短语分类模型的训练方法及装置
CN114090885A (zh) 产品标题核心词提取方法、相关装置及计算机程序产品
CN113033179A (zh) 知识获取方法、装置、电子设备及可读存储介质
CN114330345B (zh) 命名实体识别方法、训练方法、装置、电子设备及介质
CN114722841B (zh) 翻译方法、装置及计算机程序产品
CN116737520B (zh) 一种日志数据的数据编织方法、装置、设备及存储介质
CN114898754B (zh) 解码图生成、语音识别方法、装置、电子设备及存储介质
CN113360602A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN115828925A (zh) 文本选取方法、装置、电子设备与可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination