CN110516251A - 一种电商实体识别模型的构建方法、构建装置、设备和介质 - Google Patents
一种电商实体识别模型的构建方法、构建装置、设备和介质 Download PDFInfo
- Publication number
- CN110516251A CN110516251A CN201910810417.7A CN201910810417A CN110516251A CN 110516251 A CN110516251 A CN 110516251A CN 201910810417 A CN201910810417 A CN 201910810417A CN 110516251 A CN110516251 A CN 110516251A
- Authority
- CN
- China
- Prior art keywords
- sample
- mark
- trained
- feature
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 39
- 238000005267 amalgamation Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 84
- 238000000034 method Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 description 25
- 241001481665 Protophormia terraenovae Species 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种电商实体识别模型的构建方法、构建装置、设备和介质,所述方法包括:获取电商实体的标注样本集;其中,所述标注样本集中的标注样本,是将文本中电商实体所对应的字符进行标注得到的;针对每一标注样本,将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征;以及,将该标注样本输入至训练好的语言模型,得到该标注样本对应的第二样本特征;将所述第一样本特征和所述第二样本特征的合并结果输入至待训练的实体识别模型,以所述第一样本特征对应的标注样本中标注的电商实体作为所述待训练的实体识别模型的输出,对所述待训练的实体识别模型进行训练,得到训练好的实体识别模型。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种电商实体识别模型的构建方法、构建装置、设备和介质。
背景技术
自然语言处理领域是人工智能以及语言学领域的分支学科,主要是探讨计算机对于自然语言的理解和运用。自然语言处理技术已经逐步深入到生活和生产各个方面,并带了非常大的工作效率上的提升,因此,许多商家通过自然语言处理的方法在大量的互联网数据中获取电商实体,进而根据获取到的电商实体推送广告。
在获取电商实体的过程中需通过标注样本对实体识别模型进行训练。但是,上述这种训练方式中,标注样本是通过人工的方式进行标注的,由于被标注的样本比较复杂,且在标注样本时投入的人工成本和时间成本较高,得到的标注样本较少,进而通过标注样本训练好的实体识别模型在测试时得到的结果并不足够准确。
发明内容
有鉴于此,本申请的目的在于提供了一种电商实体识别模型的构建方法、构建装置、设备和介质,以解决现有技术中如何提高从待测试文本中获取电商实体的准确度问题。
第一方面,本申请实施例提供了一种电商实体识别模型的构建方法,包括:
获取电商实体的标注样本集;其中,所述标注样本集中的标注样本,是将文本中电商实体所对应的字符进行标注得到的;
针对每一标注样本,将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征;以及,将该标注样本输入至训练好的语言模型,得到该标注样本对应的第二样本特征;
将所述第一样本特征和所述第二样本特征的合并结果输入至待训练的实体识别模型,以所述第一样本特征对应的标注样本中标注的电商实体作为所述待训练的实体识别模型的输出,对所述待训练的实体识别模型进行训练,得到训练好的实体识别模型。
可选的,所述将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征,包括:
将所述标注样本输入至训练好的字符级模型,得到所述标注样本的字符特征;以及,
将所述标注样本输入至训练好的词级模型,得到所述标注样本的词特征;
将所述标注样本的字符特征和词特征进行合并,得到所述第一样本特征。
可选的,构建训练好的语言模型包括如下步骤:
获取网络语料训练样本集;其中,所述网络语料训练样本集中包含有多个训练样本;
针对每一个训练样本,将仅添加有开始标识的训练样本输入至待训练的语言模型,将仅添加有结束标识的训练样本作为所述待训练样本的输出,对所述语言模型进行训练,以得到所述训练好的语言模型。
可选的,所述网络语料训练样本集包括:
网络中向用户展示的文章;
网络社交平台中用户所发布的内容。
可选的,所述构建方法还包括:
获取待测试样本;
将所述待测试样本中的字符和词转化为向量,得到所述待测样本对应的第一样本特征;以及,将所述待测试样本输入至所述训练好的语言模型,得到所述待测样本对应的第二样本特征;
将所述待测试样本对应的第一样本特征和第二样本特征的合并结果输入至所述训练好的实体识别模型,得到所述待测样本中的电商实体。
第二方面,本申请实施例提供了一种电商实体识别模型的构建装置,包括:
获取模块,用于获取电商实体的标注样本集;其中,所述标注样本集中的标注样本,是将文本中电商实体所对应的字符进行标注得到的;
特征提取模块,用于针对每一标注样本,将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征;以及,将该标注样本输入至训练好的语言模型,得到该标注样本对应的第二样本特征;
训练模块,用于将所述第一样本特征和所述第二样本特征的合并结果输入至待训练的实体识别模型,以所述第一样本特征对应的标注样本中标注的电商实体作为所述待训练的实体识别模型的输出,对所述待训练的实体识别模型进行训练,得到训练好的实体识别模型。
可选的,所述特征提取模块,在将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征时,包括:
将所述标注样本输入至训练好的字符级模型,得到所述标注样本的字符特征;以及,
将所述标注样本输入至训练好的词级模型,得到所述标注样本的词特征;
将所述标注样本的字符特征和词特征进行合并,得到所述第一样本特征。
可选的,所述构建装置还包括:语言模型训练模块;
所述语言模型训练模块,用于获取网络语料训练样本集;其中,所述网络语料训练样本集中包含有多个训练样本;针对每一个训练样本,将仅添加有开始标识的训练样本输入至待训练的语言模型,将仅添加有结束标识的训练样本作为所述待训练样本的输出,对所述语言模型进行训练,以得到所述训练好的语言模型。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。
本申请实施例提供的一种电商实体识别模型的构建方法,首先,获取电商实体的标注样本集;其中,所述标注样本集中的标注样本,是将文本中电商实体所对应的字符进行标注得到的;然后,针对每一标注样本,将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征;以及,将该标注样本输入至训练好的语言模型,得到该标注样本对应的第二样本特征;最后,将所述第一样本特征和所述第二样本特征的合并结果输入至待训练的实体识别模型,以所述第一样本特征对应的标注样本中标注的电商实体作为所述待训练的实体识别模型的输出,对所述待训练的实体识别模型进行训练,得到训练好的实体识别模型。
在上述方法中,在构建实体识别模型的过程中,通过训练好的语言模型对每个标注样本获取第二样本特征,提取了标注样本中每个字符与上下文字符之间的关系,在增加了第二样本特征后,通过第一样本特征和第二样本特征对待训练的实体识别模型进行训练,得到的训练好的实体识别模型可以识别出上下文关系较近的字符,进而,可以将通过第一样本特征识别不出来的电商实体识别出来,减少了电商实体被漏识别的情况。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电商实体识别模型的构建方法的流程示意图;
图2为本申请实施例提供的一种语言模型的构建方法的流程示意图;
图3为本申请实施例提供的一种获取电商实体的方法的流程示意图;
图4为本申请实施例提供的一种电商实体识别模型的构建装置的结构示意图;
图5为本申请实施例提供的一种计算机设备500的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,本申请实施例提供了一种电商实体识别模型的构建方法,包括:
S101,获取电商实体的标注样本集;其中,所述标注样本集中的标注样本,是将文本中电商实体所对应的字符进行标注得到的;
S102,针对每一标注样本,将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征;以及,将该标注样本输入至训练好的语言模型,得到该标注样本对应的第二样本特征;
S103,将所述第一样本特征和所述第二样本特征的合并结果输入至待训练的实体识别模型,以所述第一样本特征对应的标注样本中标注的电商实体作为所述待训练的实体识别模型的输出,对所述待训练的实体识别模型进行训练,得到训练好的实体识别模型。
在上述步骤S101中,电商实体指的是电商领域内的产品名、品牌名、品类名、产品系列名等,本申请在此不予限制。电商实体的标注样本集中包含有多个标注样本,标注样本是将包含有电商实体的文本中电商实体对应的字符进行标注得到的。标注样本是通过人工的方式进行标注的,被标注的样本比较复杂,且在标注被标注的样本时需投入的大量的人工成本和大量的时间成本,因此,得到的标注样本较少。在本申请中,采用BIESO的标注方法对包含有电商实体的文本进行标注,其中B代表Begin:电商实体的开始;I代表Inside:电商实体的内部组成部分;E代表End:电商实体的结束;S代表Single:单独构成电商实体;O代表Outside:表示非关注的电商实体标签。
具体的,获取包含有电商实体的多个文本,针对每个包含有电商实体的文本,采用BIESO的标注方法对该文本中的电商实体进行标注,得到标注后的标注样本,多个标注样本组成电商实体的标注样本集。
例如:包含有电商实体的文本为“在泰国新购买的欧莱雅小黑瓶”,上述文本中“欧莱雅”属于电商实体的品牌名,“小黑瓶”属于电商实体的产品名,通过BIESO的标注方法对上述包含有电商实体的文本进行标注后,得到的标注样本为“在(O)泰(O)国(O)新(O)购(O)买(O)的(O)欧(B)莱(I)雅(E)小(B)黑(I)瓶(E)”。
在上述步骤S102中,第一样本特征是标注样本的字符特征和标注样本的词特征组成的,第二样本特征是标注样本输入至训练好的语言模型中得到的向量矩阵。
具体的,针对每一个标注样本,将标注样本中的每个字符转化为向量,得到该标注样本的字符向量矩阵,将标注样本中的每个词转化为向量,得到该标注样本的词向量矩阵,将字符向量矩阵和词向量矩阵进行拼接,得到第一样本特征。针对每一个标注样本,将标注样本输入至训练好的语言模型,根据每个字符与上下文字符之间的上下文关系,确定每个字符的上下文向量,根据每个字符的上下文向量,确定标注样本的第二样本特征。
在上述步骤S103中,针对每一个标注样本,通过步骤S102得到第一样本特征和第二样本特征,将第一样本特征和第二样本特征进行和合并,将合并结果输入至待训练的实体识别模型,得到该标注样本的电商实体输出结果,将上述电商实体输出结果与该标注样本中被标注出的电商实体进行对比,根据对比结果对实体识别模型中的参数进行调整。经过不断的对实体识别模型中的参数进行调整,得到训练好的实体识别模型。
通过上述三个步骤,在构建实体识别模型的过程中,通过训练好的语言模型对每个标注样本获取第二样本特征,提取了标注样本中每个字符与上下文字符之间的关系,在增加了第二样本特征后,通过第一样本特征和第二样本特征对待训练的实体识别模型进行训练,得到的训练好的实体识别模型可以识别出上下文关系较近的字符,进而,可以将通过第一样本特征识别不出来的电商实体识别出来,减少了电商实体被漏识别的情况。
在对实体识别模型进行训练的过程中需要获取第一样本特征,在本申请中提供了获取第一样本特征的具体过程,上述步骤S102,所述将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征,包括:
步骤1021,将所述标注样本输入至训练好的字符级模型,得到所述标注样本的字符特征;以及,
步骤1022,将所述标注样本输入至训练好的词级模型,得到所述标注样本的词特征;
步骤1023,将该标注样本的字符特征和词特征进行合并,得到所述第一样本特征。
在上述步骤1021中,字符级模型用于获取标注样本中每个字符的向量,字符级模型包括CNN模型,本申请在此不予限制。
将标注样本进行预处理,以字符为单位将标注样本进行分字,将分好的每个字输入至训练好的字符级模型中,得到每个字的向量矩阵,将标注样本中的每个字的向量矩阵组合在一起,形成该标注样本的字符特征。
例如,标注样本为“欧莱雅”,以字符为单位进行分字后,得到三个字符“欧”、“莱”、“雅”,将上述三个字符分别输入至训练好的字符级模型后,分别得到三个100维的向量矩阵,将上述三个向量矩阵按字符顺序拼接在一起,组成一个300维的向量矩阵,该300维的向量矩阵就是标注样本“欧莱雅”的字符特征。
在上述步骤1022中,词级模型用于获取标注样本中每个词的向量,词级模型包括word embedding模型,本申请在此不予限制。
将标注样本进行预处理,以词为单位将标注样本进行分词,将分好的每个词输入至训练好的词级模型中,得到每个词的向量矩阵,将标注样本中的每个词的向量矩阵组合在一起,形成该标注样本的词特征。
例如,标注样本为“我买了欧莱雅小黑瓶”,以词为单位进行分词后,得到四个词“我”、“买了”、“欧莱雅”、“小黑瓶”,将上述四个字符分别输入至训练好的词级模型后,分别得到四个200维的向量矩阵,将上述词个向量矩阵按字符顺序拼接在一起,组成一个800维的向量矩阵,该800维的向量矩阵就是标注样本“我买了欧莱雅小黑瓶”的词特征。
在上述步骤1023中,将上述步骤1021和上述步骤1022中分别得到的字符特征和词特征进行拼接,拼接后得到的结果为第一样本特征。
例如,标注样本为“我买了欧莱雅小黑瓶”,该标注样本中有9个字符,将每个字符输入至训练好的字符级模型后得到9个100维的向量矩阵,将9个100维向量矩阵组合后得到900维的向量矩阵,即该标注样本的字符特征;该标注样本中有4个词,将每个词输入至训练好的词级模型后得到4个200维的向量矩阵,将4个200维的向量矩阵组合后得到800维的向量矩阵。将上述900维的向量矩阵和800维的向量矩阵进行合并后得到1700维的向量矩阵,即第一样本特征。
如图2所示,本申请实施例提供了一种语言模型的构建方法,构建训练好的语言模型包括如下步骤:
S201,获取网络语料训练样本集;
S202,针对每一个训练样本,将仅添加有开始标识的训练样本输入至待训练的语言模型,将仅添加有结束标识的训练样本作为所述待训练样本的输出,对所述语言模型进行训练,以得到所述训练好的语言模型。
在上述步骤S201中,网络语料训练样本集中包括多个训练样本,训练样本是通过爬虫方式从互联网平台中爬取到的文本,训练样本包括:网络中向用户展示的文章、网络社交平台中用户所发布的内容。
上位机通过爬虫方式获取到文本后,需要对获取到的文本进行处理,处理过程包括,将繁体字转化为简体字,利用正则表达式去除文本中的特殊字符等,本申请在此不予限制。
在上述步骤S202中,结束标识用于表征该训练样本的文本结束,结束标识可以用预设字符表示,预设字符可以是字母、数字等,本申请在此不予限制。开始标识用户表征该训练样本的文本开始,开始标识可以用预设字符表示,预设标识可以是字母、数字等,本申请在此不予限制。
网络语料训练样本集的预处理方式包括:
通过爬虫方式获取网络语料;
针对每个网络语料进行预处理,预处理的过程包括:将该网络语料以字符为单位进行分字,将每个字符以单向量进行表示,根据该网络语料中每个字的顺序将每个字对应的单向量进行组合生成参数矩阵,该参数矩阵为训练样本。
所有的训练样本组成网络语料训练样本集;
针对每个训练样本,在该训练样本的开头添加开始标识;
所有添加有开始标识的训练样本组成输入样本集;
针对每个训练样本,在该训练样本的结尾添加结束标识;
所有添加有结束标识的训练样本组成输出样本集。
将输入样本集中的每个样本作为待训练语言模型的输入,将输出样本集中的每个样本作为待训练语言模型的输出,对待训练语言模型进行训练。在训练的过程中不断的调整待训练语言模型的参数,得到训练好的语言模型。
在本申请中提供的实施例,网络语料训练样本集中的训练样本是通过爬虫方式获取到的,爬虫方式是一种常规的获取语料的方式,不需要对获取的文本做过多的处理,因此网络语料训练样本集中的训练样本数量大,通过获取的网络语料训练样本集对语言模型进行训练,得到的训练好的语言模型。将文本输入至通过大量的训练样本训练得到的语言模型后,可以确定每个字符中与上下文字符之间的关系。
如图3所示,本申请实施例提供了一种获取电商实体的方法,获取电商实体的方法包括:
S301,获取待测试样本;
S302,将所述待测试样本中的字符和词转化为向量,得到所述待测样本对应的第一样本特征;以及,将所述待测试样本输入至所述训练好的语言模型,得到所述待测样本对应的第二样本特征;
S303,将所述待测试样本对应的第一样本特征和第二样本特征的合并结果输入至所述训练好的实体识别模型,得到所述待测样本中的电商实体。
在上述步骤S301中,待测试样本是用户需要测试的文本。
获取待测试样本的方式包括:
在上位机中,用户通过键盘输入待训练的测试样本;
在上位机中,通过爬虫方式在互联网中获取待测试样本。
在上述步骤S302中,将待测试样本输入至训练好的字符级模型中,得到待测试样本的字符特征;将待测试样本输入至训练好的词级模型中,得到待测试样本的词特征;将待测试样本的字符特征和词特征进行组合,得到待测试样本的第一样本特征。将待测试样本输入至训练好的语言模型中,得到待测试样本的第二样本特征。
在上述步骤S303中,将步骤S302中得到的第一样本特征和第二样本特征进行组合,将组合后的结果输入至训练好的实体识别模型,得到该待测试样本中的电商实体。
例如,待测试样本为“在泰国新购买的欧莱雅小黑瓶”,将上述待测样本分别输入至训练好的字符级模型、训练好的词级模型和训练好的语言模型中,分别得到待测试样本的字符特征、词特征和第二样本特征,将字符特征、词特征和第二样本特征进行拼接,将拼接结果输入至训练好的实体识别模型,得到该测试样本中的电商实体“欧莱雅”、“小黑瓶”。
当电商实体的标注样本集中的标注样本约9000条时,现有技术中获取测试文本中的电商实体的准确率为77.6%。而本申请中的电商实体识别模型的构建方法中,对待训练的语言模型进行训练时训练样本约930w条,因此,在采用了本申请中的电商实体识别模型的构建方法后,获取测试文本中的电商实体的准确率可达到82.8%。本申请提供的方法引入的语言模型能够补足现有技术中训练语料上的局限性,通过扩充语言模型的训练样本,进而获取了更过的文本特征,改善了在电商领域由于训练样本集偏少导致的电商实体识别准确定低的现状。
如图4所示,本申请实施例提供了一种电商实体识别模型的构建装置,包括:
获取模块401,用于获取电商实体的标注样本集;其中,所述标注样本集中的标注样本,是将文本中电商实体所对应的字符进行标注得到的;
特征提取模块402,用于针对每一标注样本,将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征;以及,将该标注样本输入至训练好的语言模型,得到该标注样本对应的第二样本特征;
训练模块403,用于将所述第一样本特征和所述第二样本特征的合并结果输入至待训练的实体识别模型,以所述第一样本特征对应的标注样本中标注的电商实体作为所述待训练的实体识别模型的输出,对所述待训练的实体识别模型进行训练,得到训练好的实体识别模型。
可选的,所述特征提取模块402,在将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征时,包括:
将所述标注样本输入至训练好的字符级模型,得到所述标注样本的字符特征;以及,
将所述标注样本输入至训练好的词级模型,得到所述标注样本的词特征;
将所述标注样本的字符特征和词特征进行合并,得到所述第一样本特征。
可选的,所述构建装置还包括:语言模型训练模块;
所述语言模型训练模块,用于获取网络语料训练样本集;其中,所述网络语料训练样本集中包含有多个训练样本;所述网络语料训练样本集包括:网络中向用户展示的文章;网络社交平台中用户所发布的内容;针对每一个训练样本,将仅添加有开始标识的训练样本输入至待训练的语言模型,将仅添加有结束标识的训练样本作为所述待训练样本的输出,对所述语言模型进行训练,以得到所述训练好的语言模型。
可选的,所述构建装置还包括:测试模块;
所述测试模块,用于获取待测试样本;将所述待测试样本中的字符和词转化为向量,得到所述待测样本对应的第一样本特征;以及,将所述待测试样本输入至所述训练好的语言模型,得到所述待测样本对应的第二样本特征;将所述待测试样本对应的第一样本特征和第二样本特征的合并结果输入至所述训练好的实体识别模型,得到所述待测样本中的电商实体。
对应于图1中的电商实体识别模型的构建方法,本申请实施例还提供了一种计算机设备500,如图5所示,该设备包括存储器501、处理器502及存储在该存储器501上并可在该处理器502上运行的计算机程序,其中,上述处理器502执行上述计算机程序时实现上述电商实体识别模型的构建方法的步骤。
具体地,上述存储器501和处理器502能够为通用的存储器和处理器,这里不做具体限定,当处理器502运行存储器501存储的计算机程序时,能够执行上述电商实体识别模型的构建方法,用于解决现有技术中如何提高从待测试文本中获取电商实体的准确性问题,在构建实体识别模型的过程中,通过训练好的语言模型对每个标注样本获取第二样本特征,提取了标注样本中每个字符与上下文字符之间的关系,在增加了第二样本特征后,通过第一样本特征和第二样本特征对待训练的实体识别模型进行训练,得到的训练好的实体识别模型可以识别出上下文关系较近的字符,进而,可以将通过第一样本特征识别不出来的电商实体识别出来,减少了电商实体被漏识别的情况。
对应于图1中的电商实体识别模型的构建方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述电商实体识别模型的构建方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述电商实体识别模型的构建方法,用于提高从待测试文本中获取电商实体的准确性的问题,在构建实体识别模型的过程中,通过训练好的语言模型对每个标注样本获取第二样本特征,提取了标注样本中每个字符与上下文字符之间的关系,在增加了第二样本特征后,通过第一样本特征和第二样本特征对待训练的实体识别模型进行训练,得到的训练好的实体识别模型可以识别出上下文关系较近的字符,进而,可以将通过第一样本特征识别不出来的电商实体识别出来,减少了电商实体被漏识别的情况。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种电商实体识别模型的构建方法,其特征在于,包括:
获取电商实体的标注样本集;其中,所述标注样本集中的标注样本,是将文本中电商实体所对应的字符进行标注得到的;
针对每一标注样本,将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征;以及,将该标注样本输入至训练好的语言模型,得到该标注样本对应的第二样本特征;
将所述第一样本特征和所述第二样本特征的合并结果输入至待训练的实体识别模型,以所述第一样本特征对应的标注样本中标注的电商实体作为所述待训练的实体识别模型的输出,对所述待训练的实体识别模型进行训练,得到训练好的实体识别模型。
2.如权利要求1所述的构建方法,其特征在于,所述将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征,包括:
将所述标注样本输入至训练好的字符级模型,得到所述标注样本的字符特征;以及,
将所述标注样本输入至训练好的词级模型,得到所述标注样本的词特征;
将所述标注样本的字符特征和词特征进行合并,得到所述第一样本特征。
3.如权利要求1所述的构建方法,其特征在于,构建训练好的语言模型包括如下步骤:
获取网络语料训练样本集;其中,所述网络语料训练样本集中包含有多个训练样本;
针对每一个训练样本,将仅添加有开始标识的训练样本输入至待训练的语言模型,将仅添加有结束标识的训练样本作为所述待训练语言模型的输出,对所述语言模型进行训练,以得到所述训练好的语言模型。
4.如权利要求3所述的构建方法,其特征在于,所述网络语料训练样本集包括:
网络中向用户展示的文章;
网络社交平台中用户所发布的内容。
5.如权利要求1所述的构建方法,其特征在于,所述构建方法还包括:
获取待测试样本;
将所述待测试样本中的字符和词转化为向量,得到所述待测试样本对应的第一样本特征;以及,将所述待测试样本输入至所述训练好的语言模型,得到所述待测样本对应的第二样本特征;
将所述待测试样本对应的第一样本特征和第二样本特征的合并结果输入至所述训练好的实体识别模型,得到所述待测样本中的电商实体。
6.一种电商实体识别模型的构建装置,其特征在于,包括:
获取模块,用于获取电商实体的标注样本集;其中,所述标注样本集中的标注样本,是将文本中电商实体所对应的字符进行标注得到的;
特征提取模块,用于针对每一标注样本,将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征;以及,将该标注样本输入至训练好的语言模型,得到该标注样本对应的第二样本特征;
训练模块,用于将所述第一样本特征和所述第二样本特征的合并结果输入至待训练的实体识别模型,以所述第一样本特征对应的标注样本中标注的电商实体作为所述待训练的实体识别模型的输出,对所述待训练的实体识别模型进行训练,得到训练好的实体识别模型。
7.如权利要求6所述的构建装置,其特征在于,所述特征提取模块,在将该标注样本中的字符和词转化为向量,得到该标注样本对应的第一样本特征时,包括:
将所述标注样本输入至训练好的字符级模型,得到所述标注样本的字符特征;以及,
将所述标注样本输入至训练好的词级模型,得到所述标注样本的词特征;
将所述标注样本的字符特征和词特征进行合并,得到所述第一样本特征。
8.如权利要求6所述的构建装置,其特征在于,所述构建装置还包括:语言模型训练模块;
所述语言模型训练模块,用于获取网络语料训练样本集;其中,所述网络语料训练样本集中包含有多个训练样本;针对每一个训练样本,将仅添加有开始标识的训练样本输入至待训练的语言模型,将仅结束标识的训练样本作为所述待训练语言模型的输出,对所述语言模型进行训练,以得到所述训练好的语言模型。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910810417.7A CN110516251B (zh) | 2019-08-29 | 2019-08-29 | 一种电商实体识别模型的构建方法、构建装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910810417.7A CN110516251B (zh) | 2019-08-29 | 2019-08-29 | 一种电商实体识别模型的构建方法、构建装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516251A true CN110516251A (zh) | 2019-11-29 |
CN110516251B CN110516251B (zh) | 2023-11-03 |
Family
ID=68629196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910810417.7A Active CN110516251B (zh) | 2019-08-29 | 2019-08-29 | 一种电商实体识别模型的构建方法、构建装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516251B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985545A (zh) * | 2020-08-10 | 2020-11-24 | 中国平安人寿保险股份有限公司 | 基于人工智能的目标数据检测方法、装置、设备及介质 |
CN112269911A (zh) * | 2020-11-11 | 2021-01-26 | 深圳视界信息技术有限公司 | 设备信息识别方法、模型训练方法、装置、设备及介质 |
CN112749639A (zh) * | 2020-12-29 | 2021-05-04 | 中电金信软件有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN113268593A (zh) * | 2021-05-18 | 2021-08-17 | Oppo广东移动通信有限公司 | 意图分类和模型的训练方法、装置、终端及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095017A1 (en) * | 2013-09-27 | 2015-04-02 | Google Inc. | System and method for learning word embeddings using neural language models |
US20170351971A1 (en) * | 2016-06-07 | 2017-12-07 | International Business Machines Corporation | Method and apparatus for informative training repository building in sentiment analysis model learning and customaization |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、系统及存储介质 |
-
2019
- 2019-08-29 CN CN201910810417.7A patent/CN110516251B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095017A1 (en) * | 2013-09-27 | 2015-04-02 | Google Inc. | System and method for learning word embeddings using neural language models |
US20170351971A1 (en) * | 2016-06-07 | 2017-12-07 | International Business Machines Corporation | Method and apparatus for informative training repository building in sentiment analysis model learning and customaization |
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、系统及存储介质 |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985545A (zh) * | 2020-08-10 | 2020-11-24 | 中国平安人寿保险股份有限公司 | 基于人工智能的目标数据检测方法、装置、设备及介质 |
CN111985545B (zh) * | 2020-08-10 | 2024-05-17 | 中国平安人寿保险股份有限公司 | 基于人工智能的目标数据检测方法、装置、设备及介质 |
CN112269911A (zh) * | 2020-11-11 | 2021-01-26 | 深圳视界信息技术有限公司 | 设备信息识别方法、模型训练方法、装置、设备及介质 |
CN112749639A (zh) * | 2020-12-29 | 2021-05-04 | 中电金信软件有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN112749639B (zh) * | 2020-12-29 | 2022-01-14 | 中电金信软件有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN113268593A (zh) * | 2021-05-18 | 2021-08-17 | Oppo广东移动通信有限公司 | 意图分类和模型的训练方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110516251B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516251A (zh) | 一种电商实体识别模型的构建方法、构建装置、设备和介质 | |
CN108509408B (zh) | 一种句子相似度判断方法 | |
CN111143536B (zh) | 基于人工智能的信息抽取方法及存储介质和相关装置 | |
CN106970912A (zh) | 中文语句相似度计算方法、计算装置以及计算机存储介质 | |
CN102236722B (zh) | 一种基于三元组的用户评论摘要的生成方法与系统 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN107766787A (zh) | 人脸属性识别方法、装置、终端及存储介质 | |
CN107305578A (zh) | 人机智能问答方法和装置 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN108491386A (zh) | 自然语言理解方法及系统 | |
CN107305539A (zh) | 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法 | |
CN107729392A (zh) | 文本结构化方法、装置、系统和非易失性存储介质 | |
CN104504086B (zh) | 网页页面的聚类方法和装置 | |
CN103631874B (zh) | 社交平台的ugc标签类别确定方法和装置 | |
CN107145573A (zh) | 人工智能客服机器人的问题解答方法及系统 | |
CN106933973A (zh) | 一种可视化网络爬虫方法 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN108009248A (zh) | 一种数据分类方法和系统 | |
CN104391969B (zh) | 确定用户查询语句句法结构的方法及装置 | |
CN108287916A (zh) | 一种资源推荐方法 | |
CN107679070A (zh) | 一种智能阅读推荐方法与装置、电子设备 | |
CN107436916A (zh) | 智能提示答案的方法及装置 | |
CN106909573A (zh) | 一种评价问答对质量的方法和装置 | |
CN110110035A (zh) | 数据处理方法和装置以及计算机可读存储介质 | |
CN106055633A (zh) | 一种中文微博主客观句分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |