CN110874534A - 数据处理方法和数据处理装置 - Google Patents

数据处理方法和数据处理装置 Download PDF

Info

Publication number
CN110874534A
CN110874534A CN201811015360.3A CN201811015360A CN110874534A CN 110874534 A CN110874534 A CN 110874534A CN 201811015360 A CN201811015360 A CN 201811015360A CN 110874534 A CN110874534 A CN 110874534A
Authority
CN
China
Prior art keywords
information
model component
text
object description
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811015360.3A
Other languages
English (en)
Other versions
CN110874534B (zh
Inventor
谢朋峻
马春平
郑华飞
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811015360.3A priority Critical patent/CN110874534B/zh
Publication of CN110874534A publication Critical patent/CN110874534A/zh
Application granted granted Critical
Publication of CN110874534B publication Critical patent/CN110874534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法和数据处理装置。该数据处理方法包括:获取业务对象的文本信息和对象描述信息,所述对象描述信息包括属性信息和属性值;将所述文本信息进行切分获得多个关键词;根据所述对象描述信息的属性值和所述关键词的对应关系,为所述文本信息的部分关键词标注对应的属性信息;将标注后的文本信息作为训练数据输入机器学习模型组件,训练所述机器学习模型组件,以获得根据对象描述信息生成的标注后的文本信息的机器学习模型组件。本发明提出的数据处理方法和装置,利用了各种领域的对象描述信息中的信息,自动生成海量的机器学习模型组件的训练数据。获得了大量的训练部分序列标注模型组件的历史数据,可以通过训练获得成熟的部分序列标注模型组件。

Description

数据处理方法和数据处理装置
技术领域
本申请涉及数据处理领域,特别是涉及一种数据处理方法和数据处理装置。
背景技术
命名实体识别是自然语言处理多种应用的基础,比如对话、信息抽取等。因此,各个云计算厂商都提供了命名实体识别的服务。但是,大多数云计算厂商都只提供了新闻领域的命名实体识别(人名、地名和机构名),在其他领域,传统的命名实体方法主要还是通过人工标注样本数据对全标注序列标注模型组件进行训练实现。
全标序列标注模型组件需要在样本数据中每个字的状态完全确定才能训练,否则会极大地影响训练效果。全标序列标注模型组件的模型组件是比较传统的条件随机场模型组件。比如:“周杰伦在杭州开演唱会“,需要人工标注出“周杰伦/人名在杭州/地名开演唱会”,才能作为样本数据,用于训练全序列标注模型组件。
但是,随着时代的发展,用户在多个领域均有命名实体识别的需求,例如在视频领域识别影视剧、角色、音乐名,在电商领域识别产品、品牌等。如何快速、低成本的实现跨领域的命名实体识别系统,是各个厂商面临的共同问题。
传统的全标注命名实体识别方式,在面对不同领域的实体识别需求时,必须有该领域的完整标注语料,也即必须对每个句子标注出所有的实体类别。要达到这种要求,必须依赖人工标注。面临跨领域问题的时候,成本高,周期长。
发明内容
鉴于上述问题,本发明一实施例提出一种数据处理方法和数据处理装置,以解决现有技术存在的问题。
为了解决上述问题,本申请一实施例公开一种数据处理方法,该数据处理方法包括如下步骤:
获取业务对象相关的文本信息和对象描述信息,所述对象描述信息包括属性信息和属性值;
根据所述对象描述信息的属性值和文本信息中的关键词的对应关系,为所述文本信息的部分关键词标注对应的属性信息;
将标注后的文本信息作为训练数据输入机器学习模型组件,训练所述机器学习模型组件,以获得根据对象描述信息生成的标注后的文本信息的机器学习模型组件。
本申请一实施例还公开一种文本标注方法,其特征在于,包括:
获取文本信息;
利用机器学习模型组件对所述文本信息进行标注;
其中所述机器学习模型组件是通过业务对象相关的文本信息和对象描述信息训练获得的,所述对象描述信息包括属性信息和属性值。
本申请一实施例还公开一种商品的数据处理方法,包括:
获取商品相关的标题信息和对象描述信息,所述对象描述信息包括商品的属性信息和属性值;
根据所述对象描述信息的属性值和标题信息中的关键词的对应关系,为所述标题信息的部分关键词标注对应的属性信息;
将标注后的标题信息作为训练数据输入机器学习模型组件,训练所述机器学习模型组件,以获得根据对象描述信息生成的标注后的标题信息的机器学习模型组件。
本申请一实施例还公开一种商品的文本标注方法,其特征在于,包括:
获取商品相关的文本信息;
利用机器学习模型组件对所述商品相关的文本信息进行标注;
其中所述机器学习模型组件是通过商品相关的标题信息和对象描述信息训练获得的,所述对象描述信息包括商品的属性信息和属性值。
为了解决上述问题,本申请一实施例公开一种数据处理装置,包括:
业务对象获取模块,用于获取业务对象相关的文本信息和对象描述信息,所述对象描述信息包括属性信息和属性值;
根据所述对象描述信息的属性值和文本信息中的关键词的对应关系,为所述文本信息的部分关键词标注对应的属性信息;
将标注后的文本信息作为训练数据输入机器学习模型组件,训练所述机器学习模型组件,以获得根据对象描述信息生成的标注后的文本信息的机器学习模型组件。
本申请一实施例还公开一种文本标注装置,其特征在于,包括:
文本信息获取模块,用于获取文本信息;
标注模块,用于利用机器学习模型组件对所述文本信息进行标注;
其中所述机器学习模型组件是通过业务对象相关的文本信息和对象描述信息训练获得的,所述对象描述信息包括属性信息和属性值。
本申请一实施例还公开一种商品的数据处理装置,包括:
训练数据获取模块,用于获取商品相关的标题信息和对象描述信息,所述对象描述信息包括商品的属性信息和属性值;
关联模块,用于根据所述对象描述信息的属性值和标题信息中的关键词的对应关系,为所述标题信息的部分关键词标注对应的属性信息;
模型组件训练模块,用于将标注后的标题信息作为训练数据输入机器学习模型组件,训练所述机器学习模型组件,以获得根据对象描述信息生成的标注后的标题信息的机器学习模型组件。
本申请一实施例还公开一种商品的文本标注装置,其特征在于,包括:
文本信息获取模块,用于获取商品相关的标题信息;
标注模块,用于利用机器学习模型组件对所述商品相关的标题信息进行标注;
其中所述机器学习模型组件是通过商品相关的标题信息和对象描述信息训练获得的,所述对象描述信息包括商品的属性信息和属性值。
本申请一实施例还公开一种终端设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述终端设备执行上述的方法。
本申请一实施例还公开一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得终端设备执行上述的方法。
由上述可知,本申请实施例包括以下优点:
本发明提出的数据处理方法和装置以及文本标注方法和装置,利用了各种领域的对象描述信息中的信息,自动生成海量的部分标注数据。相比于全序列标注模型组件在训练过程中对用于训练模型组件的历史数据的要求,本发明实施例提出的方案采集了对象描述信息中的属性信息和属性值,获得了大量的训练部分序列标注模型组件的训练数据,可以通过训练获得成熟的部分序列标注模型组件,避免了传统技术中对传统的全序列标注模型组件的训练数据进行人工标注带来的人力和时间消耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请第一实施例的数据处理方法的流程图。
图2所示为一种典型的商品页面中的文本信息和对象描述信息的示意图。
图3所示为一种隐变量序列标注模型组件标注原理的示意图
图4为一种视频界面的文本信息和对象描述信息的示意图。
图5是本申请第二实施例的数据处理方法的流程图。
图6所示为第三实施例的文本标注方法的流程图。
图7所示为本发明一实施例的文本标注方法的示意图。
图8是本申请第三实施例的数据处理装置的方框图。
图9是本申请第三实施例的文本标注装置的方框图。
图10示意性地示出了用于执行根据本发明的方法的终端设备的框图;以及
图11示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
本发明的核心构思之一,在于提出一种数据处理方法,从各种垂直领域中的对象描述信息中获取属性信息和属性值,以此作为训练数据训练部分标注模型组件,通过大量的训练数据可以获得成熟的部分序列标注模型组件,提高了部分序列标注模型组件的准确程度,而且可以避免现有的全序列标柱模型组件需要人工标注带来的工作复杂程度,减少了人力的投入,提高了标注的效率。
第一实施例
本发明第一实施例提出一种数据处理方法。图1所示为本发明第一实施例的数据处理方法的步骤流程图。如图1所示,本发明实施例的数据处理方法包括如下步骤:
S101,获取业务对象关联的文本信息和对象描述信息,所述对象描述信息包括属性信息和属性值;
在这一步骤中,执行主体(例如服务器)可以获得业务对象关联的文本信息和对象描述信息,在本实施例中,业务对象以交易平台上的商品为例进行介绍,在其他实施例中还可以包括其他对象,例如推荐内容、分享内容、视频内容、音频内容等各种有标注需求对象,在此不再赘述。
图2所示为一种典型的商品页面中的文本信息和对象描述信息的示意图。在这里,文本信息以标题为例进行说明,但是仅为举例之用,在其他实施例中,文本信息可以是该业务对象相关的任何文本类型的介绍、描述等内容,并不特别限定。
对象描述信息例如为包括描述对象的属性-属性值的数据,用于从某一个或者多个角度描述该对象。描述信息例如可以来源于百科类数据、词典类数据、商品描述类数据、产品规格数据等。在一实施例中,对象描述信息例如为商品或者内容的信息框(infobox),信息框是用于收集和显示关于描述对象的一组信息的模板,其可以包括结构化的属性-属性值对(attribute-value pairs)。如图2所示,当用户在交易平台上打开某一商品页面时,该页面可以显示该商品的标题和对应的对象描述信息。
例如该商品的标题为:XYZ西班牙代购ZARA18年夏季女装灰色8441/204。在下拉之后可以找到商品的对象描述信息,例如:服装版型:直筒;风格:原创设计;品牌:ZARA;货号:8441/204等。
在本实施例中,对象描述信息包括前述的属性值对,即属性信息和属性值,例如图2中品牌、货号等信息为属性,其对应的内容为属性值,属性可以是该商品的描述信息,表示商品的性质与关系。这些信息存储在数据库中时,品牌、货号等信息携带有属性的标记,ZARA、8441/204等信息携带有属性值的关系。数据库中一一对应地存储有上述属性和属性值信息。
在存储商品链接相关信息的数据库中,对象描述信息和文本信息均有特定的标签,对象描述信息内的属性信息和属性值也带有各自的标签。因此商品的文本信息和对象描述信息是能够被程序读取的。在这一步骤中,可以利用接入数据库的方式获取上述的对象描述信息内的属性和属性值信息以及商品的文本信息,进行存储。
在这一步骤中,除了可以在交易平台的数据库中获取上述对象描述信息内的属性和属性值信息以及商品的文本信息,还可以利用爬虫的方法,从网页上获取文本信息和对象描述信息对应的内容。由于文本信息和对象描述信息通常位于特定的位置,具有特定的形式,在这些实施例中,可以通过爬虫的方式获得商品页面的对象描述信息的内容和文本信息。
表1所示为通过爬虫或者数据库的方式获取的文本信息和对象描述信息内容。比如,从交易平台的商品详情页,可以获取如下信息:
Figure BDA0001785979360000071
表1
S102,根据所述对象描述信息的属性值和文本信息中关键词的对应关系,为所述文本信息的部分关键词标注对应的属性信息;
在本发明实施例中,可以利用现有的分词技术将文本信息切分为多个关键词。分词技术例如是将文本信息的字词与数据库中的海量词汇做匹配,当匹配成功则将该字词识别为关键词。
例如,在上述示例中切分后的关键词中包含西班牙,ZARA,17年,秋冬,女包,面料,斜挎包,8441/204等等信息,这些信息可以作为关键字。
在这一步骤中,通过将关键词与对象描述信息中的属性值匹配,可以确定商品的标题中的关键词所对应的属性。利用对应的属性来标注标题中的关键词,可以生成标注后的标题文本。
例如在上述示例中,品牌为属性,该属性信息-属性值的配对中,属性值ZARA与标题中的ZARA对应,所以可以将该标题中的ZARA标注为品牌这一属性。此外,属性信息-属性值8441/204与标题中的8441/204匹配,所以可以将该标题中的8441/204标注为货号。
在这一步骤中,标题中无法识别的一些关键词可以标注为未知(unknown)。在一实施例中,可以利用隐变量序列标注模型组件。该模型组件是部分序列标注模型,其特点在于部分未知的并不影响模型组件训练的精度。
隐变量序列标注模型组件作为一种部分标注命名实体识别模型组件,是一种对文本中个别字的状态能确定,其他字的状态不确定的情况下,也可以训练的模型组件。对不确定的词或者字,部分标注命名实体识别模型组件会罗列所有可能的状态。隐变量序列标注模型组件通过引入隐变量,改变参数估计的方式,在训练的时候将对全标注条件随机场算法的gold sentence score转化为所有可能路径的总分,以此达到训练部分标注数据的功能。在技术上,该模型组件例如可以通过部分条件随机场(partially-CRF)模型组件实现。
例如,如图3所示,针对“周杰伦演唱告白气球”这一语句,在拆分关键词之后,系统可以识别出周杰伦为人名,但是“演唱”和“告白气球”均无法识别。这是因为系统中可能并没有与“告白气球”相对应的标签。如图3所示,利用部分标注命名实体识别模型组件,可以假设“演唱”和“告白气球”对应的每一种可能的标注情况。例如“演唱”可以假设为“非实体”或者“歌曲名”或者“人名”;“告白气球”可以假设为“非实体”或者“歌曲名”或者“人名”。从而得到9种情况。在这9种情况中,利用最大似然概率法则对“演唱”和“告白气球”的属性进行计算,利用标注的方法对这一语句进行标注,作为训练数据。在大量的其他语料的多次训练下,尽可能接近“演唱”和“告白气球”真实的属性。
在一实施例中,表2所示为自动生成的半标注实体识别数据的内容,如下。
Figure BDA0001785979360000091
表2
S103,将关联属性信息之后的标题文本作为训练数据输入机器学习模型组件,训练所述机器学习模型组件,所述机器学习模型组件可以为隐变量序列标注模型组件。
对于现有的全标注序列标注模型,在模型训练阶段,其需要通过训练数据学习到模型的参数。
目标函数=真实标记路径的概率/整体路径概率的总和
训练的目标就是使得目标函数尽可能的大,那就要最大化“实标记路径的概率”
针对“周杰伦演唱告白气球”这一文本,因为标记是确定的,“真实标记路径的概率”就等于P(人名,非实体,歌曲名|周杰伦,演唱,告白气球),比较容易计算。
对于隐变量序列标注模型,同全标注序列标注模型的目标函数一样,如下:
目标函数=真实标记路径的概率/整体路径概率的总和
训练的目标同样是使得目标函数尽可能的大,那就要最大化“真实标记路径的概率”
差异在部分标注模型处理的标注数据,每个字/词的标记不是唯一确定的。如图3所示,所以“真实标记路径的概率”的计算方式不一样,需要计算候选标记路径的和。
“真实标记路径的概率”=
P(人名,非实体,歌曲名|周杰伦,演唱,告白气球)+
P(人名,非实体,非实体|周杰伦,演唱,告白气球)+
P(人名,非实体,人名|周杰伦,演唱,告白气球)+
P(人名,歌曲名,歌曲名|周杰伦,演唱,告白气球)+
P(人名,歌曲名,非实体|周杰伦,演唱,告白气球)+
P(人名,歌曲名,人名|周杰伦,演唱,告白气球)+
P(人名,人名,歌曲名|周杰伦,演唱,告白气球)+
P(人名,人名,非实体|周杰伦,演唱,告白气球)+
P(人名,人名,人名|周杰伦,演唱,告白气球)。
利用现有的算法可以计算出每一个概率P,其总和即为真实标记路径的概率。
在这一步骤中,可以将标注了属性之后的标题文本作为训练数据,输入隐变量序列标注模型组件中,对隐变量序列标注模型组件进行训练。在现有技术中,由于获取训练数据的方式大多采用人工标注的方式,而人工标注的方式通常倾向于使用完全序列标注模型组件,即针对某一训练数据,通过人工标注其中所有的内容,并输入完全序列标注模型组件进行训练。这样,现有技术几乎放弃了隐变量序列标注模型组件的使用。而本发明实施例提出的方案中,通过利用业务对象的文本信息和对象描述信息的方式,可以获得部分标准模型组件训练所需要的训练数据,并且由于业务对象的广泛存在——例如商品、视频、百科等方面,该训练数据可以涉及方方面面且规模庞大,因此可以利用大量的训练数据对部分标准模型组件进行训练,解决了隐变量序列标注模型组件需要大量语料才能训练成熟的问题。
如上所述,除了前述的商品之外,在视频领域和百科等领域也能够获得足够的训练隐变量序列标注模型组件的训练数据。
例如百科平台或者视频平台也会存在与文本信息对应的大量的对象描述信息。如图4所示,例如,针对图中的视频,该视频具有标题等文本信息,同时也具有如图所示的对象描述信息。对象描述信息中有导演、演员、类别、上映年份等信息。因此,可以利用这些属性信息-属性值对视频中的标题进行标注。在标注之后生成训练数据,用于训练该隐变量序列标注模型组件。
由上述可知,本发明第一实施例提出的数据处理方法至少具有如下技术效果:
本发明提出的数据处理方法,利用了各种领域的对象描述信息中的信息,自动生成海量的部分标注数据。相比于全序列标注模型组件在训练过程中对用于训练模型组件的历史数据的要求,本发明实施例提出的方案可以避免对全序列标注模型组件进行训练,同时采集了对象描述信息中的属性信息-属性值数据,获得了大量的训练部分序列标注模型组件的历史数据,可以通过训练获得成熟的部分序列标注模型组件。
第二实施例
本发明第二实施例提出一种数据处理方法。图5所示为本发明第二实施例的数据处理方法的步骤流程图。如图5所示,本发明实施例的数据处理方法如下步骤:
S201,获取业务对象相关的文本信息和对象描述信息,所述对象描述信息包括属性信息和属性值;
S203,根据所述对象描述信息的属性值和所述关键词的对应关系,为所述文本信息的部分关键词标注对应的属性信息;
S204,将标注后的文本信息作为训练数据输入机器学习模型组件,训练所述机器学习模型组件。
上述步骤S201、S203至步骤S204与上一实施例的步骤S101至步骤S104相同或相似,在此不再赘述。本实施例重点说明与上一实施例的不同之处。
在一可选实施例中,所述步骤S201之后,所述方法还包括如下步骤:
S202,对所述业务对象的文本信息进行预处理。
在一实施例中,上述的预处理包括大小写归一、繁简体归一等操作。例如针对单词,可以将大小写进行统一,针对汉字,可以将所有的繁体字统一为简体字等。此外,还可以设置一些替代字库。例如当文本信息中出现了Dior,可以自动对应到中文的“迪奥”等。以在后续匹配时能够排除大小写、繁简等、不同语言种类等撰写方式对匹配的影响,提高匹配的精确度。
在一可选实施例中,所述步骤S202对文本信息进行预处理的步骤可以包括:
将所述文本信息进行切分获得多个关键词;
在本发明实施例中,可以利用现有的分词技术将文本信息切分为多个关键词。分词技术例如是将文本信息的字词与数据库中的海量词汇做匹配,当匹配成功则将该字词识别为关键词。
例如,在前述表1中上述示例中切分后的关键词中包含西班牙,ZARA,17年,秋冬,女包,面料,斜挎包,8441/204等等信息,这些信息可以分别作为关键词,供后续加标签使用。
在一可选实施例中,所述业务对象的文本信息和对象描述信息是从业务对象对应的结构化数据中获取的,或者是从业务对象的链接对应的页面中通过爬虫方式获取的。上述的结构化数据例如存储在数据库中,如前所述,结构化数据可以从数据库中的属性信息-属性值的键值对中直接获取。
在存储商品链接相关信息的数据库中,对象描述信息和文本信息均有特定的标签,对象描述信息内的属性和属性值也带有各自的标签。因此商品的文本信息和对象描述信息是能够直接或间接地被程序读取的。在这一步骤中,可以利用数据抓取的方式获取上述的对象描述信息内的属性和属性值信息以及商品的文本信息,进行存储。
除了可以在交易平台的数据库中获取上述对象描述信息内的属性和属性值信息以及商品的文本信息,还可以利用爬虫的方法,从网页上获取文本信息和对象描述信息对应的内容。由于文本信息和对象描述信息通常位于特定的位置,具有特定的形式,在这些实施例中,可以通过爬虫的方式获得商品页面的对象描述信息的内容和文本信息。
在一可选实施例中,上述的业务对象可以包括商品、视频、音频、百科等其中一种或者多种的内容。
在一可选实施例中,所述方法还包括如下步骤:
S205,在检测到输入文本时,通过机器学习模型组件对所述输入文本进行标注;
S206,输出标注结果。
在步骤S205中,当用户输入文本信息时候,可以调用训练完成的部分标注模型组件,对输入的文本信息进行标注,获得经过标注的文本信息。例如,服务器检测到输入的文本信息时,可以利用已有的word2vec技术在部分标注模型组件内部将输入文本向量化,与训练好的部分标注模型组件中的节点向量进行对比,找出与所述输入的向量化的文本的向量匹配的节点向量,从而输出确定的标注后的输入文本。
在步骤S206中,可以输出标注结果,用于对产品进行分类等操作。
综上所述,本实施例提出的数据处理方法至少具有如下优点:
本发明提出的数据处理方法,利用了各种领域的对象描述信息中的信息,自动生成海量的部分序列标注模型组件的训练数据。相比于现有的全序列标注模型组件在训练过程中对用于训练模型组件的历史数据的要求,本发明实施例提出的方案可以避免对全序列标注模型组件进行训练,同时采集了对象描述信息中的属性信息-属性值数据,获得了大量的训练部分序列标注模型组件的历史数据,可以通过训练获得成熟的部分序列标注模型组件。
除此之外,本实施例提出的数据处理方法至少还包括如下优点:
根据本发明实施例提出的数据处理方法,本发明从不同的领域中获取包含属性信息-属性值的对象描述信息,从而可以通过来源广泛的历史数据,训练出能够广泛应用于不同领域的隐变量序列标注模型组件,从而可以为不同的领域的文本内容进行标注。在一些实施例中,本发明可以根据输入文本,快速实现不同领域的命名实体识别。
第三实施例
本发明第三实施例提出一种文本标注方法,图6所示为第三实施例的文本标注方法的流程图。如图6所示,该方法可以包括如下步骤:
S301,获取文本信息;
S303,利用机器学习模型组件对所述文本信息进行标注;
其中所述机器学习模型组件是通过业务对象相关的文本信息和对象描述信息训练获得的,所述对象描述信息包括属性信息和属性值。
在步骤S301中,服务端获取用户输入的或者由服务器自动抓取的文本信息,在步骤S303中,利用训练完成的隐变量序列标注模型组件对文本信息进行标注,为文本信息中的关键词加上属性标签。
图7所示为本发明一实施例的文本标注方法的示意图。如图7所示,在步骤S311中服务器接收到用户输入的文本信息之后,在S312中服务器可以调用训练好的该隐变量序列标注模型组件,对文本信息进行标注,输出标注后的文本。
图7中的步骤S321到S324为一个优选实施例中的隐变量序列标注模型组件的训练方式。步骤S321对应前述第二实施例的步骤S201,获取文本信息和对象描述信息中的属性信息-属性值信息。在步骤S322中,如前述第二实施例步骤S202,对文本信息进行预处理,例如拆分归一化处理、拆为关键词等。在步骤S323中,可以将获得的文本信息和对象描述信息中的属性信息-属性值信息生成特定格式的训练数据,在步骤S324中训练隐变量序列标注模型组件,并在步骤S325中生成训练成熟的隐变量序列标注模型组件。
在本发明一可选实施例中,在获取用户输入的文本信息之后,所述方法还可以包括如下步骤:
S302,对所述文本信息进行预处理。
在本发明一可选实施例中,可以对用户输入的文本进行预处理,所述预处理可以包括分词处理和归一化处理至少其中之一。分词和归一化处理可以借鉴前述第二实施例的步骤S202的介绍,在此不再赘述。
在一实施例中,上述的业务对象包括商品、百科、视频、音频等,在此并不限定。
综上所述,本实施例提出的文本标注方法至少具有如下优点:
本发明提出的文本标注方法,利用了各种领域的对象描述信息中的信息,自动生成海量的隐变量序列标注模型组件的训练数据。相比于现有的全序列标注模型组件在训练过程中对用于训练模型组件的历史数据的要求,本发明实施例提出的方案可以避免对全序列标注模型组件进行训练,同时采集了对象描述信息中的属性信息-属性值数据,获得了大量的训练隐变量序列标注模型组件的历史数据,可以通过训练获得成熟的隐变量序列标注模型组件。
除此之外,本实施例提出的文本标注方法至少还包括如下优点:
根据本发明实施例提出的数据处理方法和装置,本发明从不同的领域中获取包含属性信息-属性值的对象描述信息,从而可以通过来源广泛的历史数据,训练出能够广泛应用于不同领域的隐变量序列标注模型组件,从而可以为不同的领域的文本内容进行标注。在一些实施例中,本发明可以根据输入文本,快速实现不同领域的命名实体识别。
第四实施例
本发明第四实施例提出一种数据处理装置,如图8所示,该装置包括:
训练数据获取模块401,用于获取业务对象相关的文本信息和对象描述信息,所述对象描述信息包括属性信息和属性值;
关联模块402,用于根据所述对象描述信息的属性值和文本信息中的关键词的对应关系,为所述文本信息的部分关键词标注对应的属性信息;
模型组件训练模块403,用于将标注后的文本信息作为训练数据输入机器学习模型组件,训练所述机器学习模型组件,以获得根据对象描述信息生成的标注后的文本信息的机器学习模型组件。
在一实施例中,所述装置还包括:
预处理模块404,用于对所述业务对象的文本信息进行预处理。
在一实施例中,所述预处理模块404用于:将所述文本信息拆分为多个关键词。
在一实施例中,所述预处理模块404用于:
将所述文本信息进行归一化处理。
在一实施例中,所述业务对象的文本信息和对象描述信息是从业务对象对应的结构化数据中获取的。
在一实施例中,所述业务对象的文本信息和对象描述信息是从业务对象的链接对应的页面中通过爬虫方式获取的。
在一实施例中,所述业务对象包括商品、百科、视频、音频至少其中之一。
在一实施例中,所述装置还包括:
标注模块405,用于在检测到输入文本时,通过机器学习模型组件对所述输入文本进行标注。
综上所述,本实施例提出的数据处理装置至少具有如下优点:
本发明提出的数据处理装置,利用了各种领域的对象描述信息中的信息,自动生成海量的部分标注数据。相比于全序列标注模型组件在训练过程中对用于训练模型组件的历史数据的要求,本发明实施例提出的方案可以避免对全序列标注模型组件进行训练,同时采集了对象描述信息中的属性信息-属性值数据,获得了大量的训练隐变量序列标注模型组件的历史数据,可以通过训练获得成熟的隐变量序列标注模型组件。
除此之外,本实施例提出的数据处理装置至少还包括如下优点:
根据本发明实施例提出的数据处理装置,本发明从不同的领域中获取包含属性信息-属性值的对象描述信息,从而可以通过来源广泛的历史数据,训练出能够广泛应用于不同领域的隐变量序列标注模型组件,从而可以为不同的领域的文本内容进行标注。在一些实施例中,本发明可以根据输入文本,快速实现不同领域的命名实体识别。
第五实施例
本发明第五实施例提出一文本标注装置,如图9所示,该装置包括:
文本信息获取模块501,用于获取文本信息;
标注模块502,用于利用机器学习模型组件对所述文本信息进行标注;
其中所述机器学习模型组件为是通过业务对象相关的文本信息和对象描述信息训练获得的,所述对象描述信息包括属性信息和属性值。
在一实施例中,所述获取文本信息之后,所述装置还包括:
预处理模块503,用于对所述文本信息进行预处理。
在一实施例中,所述预处理模块503用于:
对所述文本信息进行归一处理;和/或
对所述文本信息进行分词处理。
在一实施例中,所述业务对象包括商品、百科、视频、音频至少其中之一。
综上所述,本实施例提出的文本标注装置至少具有如下优点:
本发明提出的文本标注装置,利用了各种领域的对象描述信息中的信息,自动生成海量的部分标注数据。相比于全序列标注模型组件在训练过程中对用于训练模型组件的历史数据的要求,本发明实施例提出的方案可以避免对全序列标注模型组件进行训练,同时采集了对象描述信息中的属性信息-属性值数据,获得了大量的训练隐变量序列标注模型组件的历史数据,可以通过训练获得成熟的隐变量序列标注模型组件。
除此之外,本实施例提出的文本标注装置至少还包括如下优点:
根据本发明实施例提出的文本标注装置,本发明从不同的领域中获取包含属性信息-属性值的对象描述信息,从而可以通过来源广泛的历史数据,训练出能够广泛应用于不同领域的隐变量序列标注模型组件,从而可以为不同的领域的文本内容进行标注。在一些实施例中,本发明可以根据输入文本,快速实现不同领域的命名实体识别。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
图10为本申请一实施例提供的终端设备的硬件结构示意图。如图10所示,该终端设备可以包括输入设备90、处理器91、输出设备92、存储器93和至少一个通信总线94。通信总线94用于实现元件之间的通信连接。存储器93可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,存储器93中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述处理器91例如可以为中央处理器(Central Processing Unit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该处理器91通过有线或无线连接耦合到上述输入设备90和输出设备92。
可选的,上述输入设备90可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;可选的,上述收发信机可以是具有通信功能的射频收发芯片、基带处理芯片以及收发天线等。麦克风等音频输入设备可以接收语音数据。输出设备92可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中数据处理装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图11为本申请另一实施例提供的终端设备的硬件结构示意图。图11是对图10在实现过程中的一个具体的实施例。如图11所示,本实施例的终端设备包括处理器101以及存储器102。
处理器101执行存储器102所存放的计算机程序代码,实现上述实施例中图1至图7的数据处理方法和文本标注方法。
存储器102被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。存储器102可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,处理器101设置在处理组件100中。该终端设备还可以包括:通信组件103,电源组件104,多媒体组件105,音频组件106,输入/输出接口107和/或传感器组件108。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件100通常控制终端设备的整体操作。处理组件100可以包括一个或多个处理器101来执行指令,以完成上述图1至图7方法的全部或部分步骤。此外,处理组件100可以包括一个或多个模块,便于处理组件100和其他组件之间的交互。例如,处理组件100可以包括多媒体模块,以方便多媒体组件105和处理组件100之间的交互。
电源组件104为终端设备的各种组件提供电力。电源组件104可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件105包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件106被配置为输出和/或输入音频信号。例如,音频组件106包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件103发送。在一些实施例中,音频组件106还包括一个扬声器,用于输出音频信号。
输入/输出接口107为处理组件100和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件108包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件108可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件108可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件108还可以包括摄像头等。
通信组件103被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务端建立通信。
由上可知,在图11实施例中所涉及的通信组件103、音频组件106以及输入/输出接口107、传感器组件108均可以作为图10实施例中的输入设备的实现方式。
本申请实施例提供了一种终端设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述终端设备执行如本申请实施例中一个或多个所述的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种数据处理方法和数据处理装置,以及文本处理方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (25)

1.一种数据处理方法,包括:
获取业务对象相关的文本信息和对象描述信息,所述描述信息数据包括属性信息和属性值;
根据所述对象描述信息的属性值和文本信息中的关键词的对应关系,为所述文本信息的部分关键词标注对应的属性信息;
将标注后的文本信息作为训练数据输入机器学习模型组件,训练所述机器学习模型组件,以获得根据对象描述信息生成的标注后的文本信息的机器学习模型组件。
2.根据权利要求1所述的方法,其中,所述获取业务对象相关的文本信息和对象描述信息之后,所述方法还包括:
对所述业务对象的文本信息进行预处理。
3.根据权利要求2所述的方法,其中,所述预处理包括:将所述文本信息拆分为多个关键词。
4.根据权利要求2所述的方法,其中,所述预处理包括:将所述文本信息进行归一化处理。
5.根据权利要求1所述的方法,其中,所述业务对象的文本信息和对象描述信息是从业务对象对应的结构化数据中获取的。
6.根据权利要求1所述的方法,其中,所述业务对象的文本信息和对象描述信息是从业务对象对应的页面中通过爬虫方式获取的。
7.根据权利要求1所述的方法,其中,所述业务对象包括商品、百科、视频、音频至少其中之一。
8.根据权利要求1所述的方法,其中,所述方法还包括:
在检测到输入文本时,通过机器学习模型组件对所述输入文本进行标注。
9.根据权利要求1所述的方法,其中,所述机器学习模型组件为隐变量序列标注模型组件。
10.一种文本标注方法,其特征在于,包括:
获取文本信息;
利用机器学习模型组件对所述文本信息进行标注;
其中所述机器学习模型组件是通过业务对象相关的文本信息和对象描述信息训练获得的,所述对象描述信息包括属性信息和属性值。
11.根据权利要求10所述的方法,其中,所述获取文本信息之后,所述方法还包括:
对所述文本信息进行预处理。
12.根据权利要求11所述的方法,其中,所述预处理包括如下至少一者:
对所述文本信息进行归一处理;
对所述文本信息进行分词处理。
13.根据权利要求10所述的方法,其中,所述业务对象包括商品、百科、视频、音频至少其中之一。
14.根据权利要求10所述的方法,其中,所述机器学习模型组件为隐变量序列标注模型组件。
15.一种商品的数据处理方法,包括:
获取商品相关的标题信息和对象描述信息,所述对象描述信息包括商品的属性信息和属性值;
根据所述对象描述信息的属性值和标题信息中的关键词的对应关系,为所述标题信息的部分关键词标注对应的属性信息;
将标注后的标题信息作为训练数据输入机器学习模型组件,训练所述机器学习模型组件,以获得根据对象描述信息生成的标注后的标题信息的机器学习模型组件。
16.一种商品的文本标注方法,其特征在于,包括:
获取商品相关的文本信息;
利用机器学习模型组件对所述商品相关的文本信息进行标注;
其中所述机器学习模型组件是通过商品相关的标题信息和对象描述信息训练获得的,所述对象描述信息包括商品的属性信息和属性值。
17.一种数据处理装置,包括:
训练数据获取模块,用于获取业务对象相关的文本信息和对象描述信息,所述对象描述信息包括属性信息和属性值;
关联模块,用于根据所述对象描述信息的属性值和文本信息中的关键词的对应关系,为所述文本信息的部分关键词标注对应的属性信息;
模型组件训练模块,用于将标注后的文本信息作为训练数据输入机器学习模型组件,训练所述机器学习模型组件,以获得根据对象描述信息生成的标注后的文本信息的机器学习模型组件。
18.根据权利要求17所述的装置,其中,所述装置还包括:
预处理模块,用于对所述业务对象的文本信息进行预处理。
19.根据权利要求17所述的装置,其中,所述装置还包括:
标注模块,用于在检测到输入文本时,通过机器学习模型组件对所述输入文本进行标注。
20.一种文本标注装置,其特征在于,包括:
文本信息获取模块,用于获取文本信息;
标注模块,用于利用机器学习模型组件对所述文本信息进行标注;
其中所述机器学习模型组件是通过业务对象相关的文本信息和对象描述信息训练获得的,所述对象描述信息包括属性信息和属性值。
21.根据权利要求20所述的装置,其中,所述装置还包括:
预处理模块,用于对所述文本信息进行预处理。
22.一种商品的数据处理装置,包括:
训练数据获取模块,用于获取商品相关的标题信息和对象描述信息,所述对象描述信息包括商品的属性信息和属性值;
关联模块,用于根据所述对象描述信息的属性值和标题信息中的关键词的对应关系,为所述标题信息的部分关键词标注对应的属性信息;
模型组件训练模块,用于将标注后的标题信息作为训练数据输入机器学习模型组件,训练所述机器学习模型组件,以获得根据对象描述信息生成的标注后的标题信息的机器学习模型组件。
23.一种商品的文本标注装置,其特征在于,包括:
文本信息获取模块,用于获取商品相关的标题信息;
标注模块,用于利用机器学习模型组件对所述商品相关的标题信息进行标注;
其中所述机器学习模型组件是通过商品相关的标题信息和对象描述信息训练获得的,所述对象描述信息包括商品的属性信息和属性值。
24.一种终端设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述终端设备执行如权利要求1-16中一个或多个所述的方法。
25.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得终端设备执行如权利要求1-16中一个或多个所述的方法。
CN201811015360.3A 2018-08-31 2018-08-31 数据处理方法和数据处理装置 Active CN110874534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811015360.3A CN110874534B (zh) 2018-08-31 2018-08-31 数据处理方法和数据处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811015360.3A CN110874534B (zh) 2018-08-31 2018-08-31 数据处理方法和数据处理装置

Publications (2)

Publication Number Publication Date
CN110874534A true CN110874534A (zh) 2020-03-10
CN110874534B CN110874534B (zh) 2023-04-28

Family

ID=69715940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811015360.3A Active CN110874534B (zh) 2018-08-31 2018-08-31 数据处理方法和数据处理装置

Country Status (1)

Country Link
CN (1) CN110874534B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723162A (zh) * 2020-06-19 2020-09-29 广州小鹏车联网科技有限公司 词典处理方法、处理装置、服务器和语音交互系统
CN112035660A (zh) * 2020-08-14 2020-12-04 海尔优家智能科技(北京)有限公司 基于网络模型的对象类别确定方法及装置
CN113468299A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN114117897A (zh) * 2021-11-10 2022-03-01 阿里巴巴达摩院(杭州)科技有限公司 生成设计图的方法、设备和介质
CN115115423A (zh) * 2021-03-23 2022-09-27 京东科技控股股份有限公司 对象属性获取方法、装置、电子设备及存储介质
CN115277814A (zh) * 2022-07-26 2022-11-01 深圳证券通信有限公司 数据传输方法及相关装置
CN115374109A (zh) * 2022-07-29 2022-11-22 华为技术有限公司 数据访问方法、装置、计算设备和系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN102289523A (zh) * 2011-09-20 2011-12-21 北京金和软件股份有限公司 一种文本智能提取标签的方法
CN103678335A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN103810293A (zh) * 2014-02-28 2014-05-21 广州云宏信息科技有限公司 基于Hadoop的文本分类方法及装置
CN104376038A (zh) * 2014-09-12 2015-02-25 中国人民解放军信息工程大学 一种基于标签云的位置关联文本信息可视化方法
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置
US20160321358A1 (en) * 2015-04-30 2016-11-03 Oracle International Corporation Character-based attribute value extraction system
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
WO2017107805A1 (zh) * 2015-12-24 2017-06-29 阿里巴巴集团控股有限公司 确定商品对象标题文本的方法及装置
WO2018032937A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539907A (zh) * 2008-03-19 2009-09-23 日电(中国)有限公司 词性标注模型训练装置、词性标注系统及其方法
CN102289523A (zh) * 2011-09-20 2011-12-21 北京金和软件股份有限公司 一种文本智能提取标签的方法
CN103678335A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN103810293A (zh) * 2014-02-28 2014-05-21 广州云宏信息科技有限公司 基于Hadoop的文本分类方法及装置
CN104376038A (zh) * 2014-09-12 2015-02-25 中国人民解放军信息工程大学 一种基于标签云的位置关联文本信息可视化方法
US20160321358A1 (en) * 2015-04-30 2016-11-03 Oracle International Corporation Character-based attribute value extraction system
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
WO2017107805A1 (zh) * 2015-12-24 2017-06-29 阿里巴巴集团控股有限公司 确定商品对象标题文本的方法及装置
WO2018032937A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾道建;来斯惟;张元哲;刘康;赵军;: "面向非结构化文本的开放式实体属性抽取" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468299A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN111723162A (zh) * 2020-06-19 2020-09-29 广州小鹏车联网科技有限公司 词典处理方法、处理装置、服务器和语音交互系统
CN111723162B (zh) * 2020-06-19 2023-08-25 北京小鹏汽车有限公司 词典处理方法、处理装置、服务器和语音交互系统
CN112035660A (zh) * 2020-08-14 2020-12-04 海尔优家智能科技(北京)有限公司 基于网络模型的对象类别确定方法及装置
CN115115423A (zh) * 2021-03-23 2022-09-27 京东科技控股股份有限公司 对象属性获取方法、装置、电子设备及存储介质
CN114117897A (zh) * 2021-11-10 2022-03-01 阿里巴巴达摩院(杭州)科技有限公司 生成设计图的方法、设备和介质
CN115277814A (zh) * 2022-07-26 2022-11-01 深圳证券通信有限公司 数据传输方法及相关装置
CN115374109A (zh) * 2022-07-29 2022-11-22 华为技术有限公司 数据访问方法、装置、计算设备和系统
CN115374109B (zh) * 2022-07-29 2023-09-01 华为技术有限公司 数据访问方法、装置、计算设备和系统

Also Published As

Publication number Publication date
CN110874534B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN110874534B (zh) 数据处理方法和数据处理装置
CN107705066B (zh) 一种商品入库时信息录入方法及电子设备
CN107291783B (zh) 一种语义匹配方法及智能设备
CN110168535B (zh) 一种信息处理方法及终端、计算机存储介质
CN111191428B (zh) 评论信息处理方法、装置、计算机设备和介质
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN111309910A (zh) 文本信息挖掘方法及装置
CN112598067A (zh) 事件的情感分类方法、装置、电子设备及存储介质
CN111666766A (zh) 数据处理方法、装置和设备
CN111738791B (zh) 一种文本处理方法、装置、设备和存储介质
CN111324698B (zh) 深度学习方法、评价观点提取方法、装置和系统
CN114648392A (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN111782793A (zh) 智能客服处理方法和系统及设备
CN117312140A (zh) 测试用例的生成方法、装置、电子设备及存储介质
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN112883719A (zh) 一种品类词识别方法、模型训练方法、装置及系统
CN118113901A (zh) 多模态大语言模型训练方法、相关性计算及标签生成方法
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
CN116703515A (zh) 基于人工智能的推荐方法、装置、计算机设备及存储介质
CN112860860A (zh) 一种答复问题的方法和装置
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant