CN112579869B - 对象提取方法、装置、电子设备及存储介质 - Google Patents
对象提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112579869B CN112579869B CN201910936164.8A CN201910936164A CN112579869B CN 112579869 B CN112579869 B CN 112579869B CN 201910936164 A CN201910936164 A CN 201910936164A CN 112579869 B CN112579869 B CN 112579869B
- Authority
- CN
- China
- Prior art keywords
- probability
- phrase
- participle
- determining
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000011218 segmentation Effects 0.000 claims description 91
- 238000012545 processing Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012549 training Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 241000234295 Musa Species 0.000 description 6
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 6
- 235000015203 fruit juice Nutrition 0.000 description 6
- 239000003760 tallow Substances 0.000 description 6
- 241000227653 Lycopersicon Species 0.000 description 4
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种对象提取方法、装置、电子设备及存储介质。该方法包括:获取待处理文本;将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合;其中,所述短语集合包括至少一个短语;确定所述短语集合中的短语的第一概率;其中,所述第一概率表征所述短语作为对象的概率;根据所述短语集合中的短语的所述第一概率,确定目标短语;根据所述目标短语确定所述待处理文本中包括的目标对象。通过本公开实施例,可以在不训练大型模型的情况下采用简明鲁棒的方法从待处理文本中提取出目标对象,并且这种方式相较于人工总结提取规则的方式有更多的鲁棒性,是一种兼顾效率和效果的方法。
Description
技术领域
本公开涉及计算机技术领域,具体涉及一种对象提取方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,线上平台从所提供的对象、对用户服务等方方面面在不断地改进,为了能够让用户在最短的时间内从线上平台检索到所需要的对象,线上平台通常会对线上平台所提供打上各种标签。例如,在外卖点餐平台上,菜品画像的标签包括菜式、菜系、口味、做法等,这些标签可以通过对菜品名进行匹配得到。本公开发明人发现,由于线上平台提供的对象品种有限,不一定能够全量覆盖所有对象。因此,如何从网上记载的一些文本中获得更多的对象名称等信息,提高已有标签的覆盖率,是目前需要解决的问题之一。
发明内容
本公开实施例提供一种对象提取方法、装置、电子设备及存储介质。
第一方面,本公开实施例中提供了一种对象提取方法。
具体的,所述对象提取方法,包括:
获取待处理文本;
将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合;其中,所述短语集合包括至少一个短语;
确定所述短语集合中的短语的第一概率;其中,所述第一概率表征所述短语作为对象的概率;
根据所述短语集合中的短语的所述第一概率,确定目标短语;
根据所述目标短语确定所述待处理文本中包括的目标对象。
结合第一方面,本公开在第一方面的第一种实现方式中,确定所述短语集合中的短语的第一概率,包括:
对所述短语进行分词得到所述短语对应的分词集合;其中,所述分词集合包括至少一个分词;
确定所述分词集合中的分词的第二概率;其中,所述第二概率表征所述分词在对象中的出现概率;
基于所述第二概率确定所述短语的所述第一概率。
结合第一方面和/或第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,基于所述第二概率确定所述短语的所述第一概率,包括:
根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率。
结合第一方面、第一方面的第一种实现方式和/或第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率,包括:
所述短语对应的所述分词集合中的分词数量少于最大分词数量时,根据所述分词的所述第二概率以及缺少分词数量个平均概率的对数之和确定所述短语的所述第一概率;其中,所述缺少分词数量为所述最大分词数量减去所述短语对应的所述分词集合中的分词数量;所述平均概率为所述短语对应的所述分词集合中所述分词的第二概率的平均值。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和/或第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,还包括:
获取多个样本对象;
对多个所述样本对象进行分词得到样本分词集合;其中,所述样本分词集合中包括至少一个样本分词;
根据所述样本分词集合确定所述样本分词的第三概率;其中,所述第三概率表征所述样本分词在对象中的出现概率。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和/或第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,根据所述样本分词集合确定所述样本分词的第三概率,包括:
统计所述样本分词在所述样本分词集合中的词频;
根据所述词频确定所述样本分词的所述第三概率。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和/或第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,确定所述分词集合中的分词的第二概率,包括:
将所述短语对应的所述分词集合中的所述分词与所述样本分词集合进行匹配;
将与所述分词相匹配的所述样本分词的第三概率确定为所述分词的所述第二概率。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和/或第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合,包括:
根据预设的拆分词将所述待处理文本拆分成多个所述短语。
第二方面,本公开实施例中提供了一种对象提取装置。
具体的,所述对象提取装置,包括:
获取模块,被配置为获取待处理文本;
拆分模块,被配置为将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合;其中,所述短语集合包括至少一个短语;
第一确定模块,被配置为确定所述短语集合中的短语的第一概率;其中,所述第一概率表征所述短语作为对象的概率;
第二确定模块,被配置为根据所述短语集合中的短语的所述第一概率,确定目标短语;
第三确定模块,被配置为根据所述目标短语确定所述待处理文本中包括的目标对象。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,对象提取装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持对象提取装置执行上述第一方面中对象提取方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述对象提取装置还可以包括通信接口,用于对象提取装置与其他设备或通信网络通信。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:
获取待处理文本;
将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合;其中,所述短语集合包括至少一个短语;
确定所述短语集合中的短语的第一概率;其中,所述第一概率表征所述短语作为对象的概率;
根据所述短语集合中的短语的所述第一概率,确定目标短语;
根据所述目标短语确定所述待处理文本中包括的目标对象。
结合第三方面,本公开在第三方面的第一种实现方式中,确定所述短语集合中的短语的第一概率,包括:
对所述短语进行分词得到所述短语对应的分词集合;其中,所述分词集合包括至少一个分词;
确定所述分词集合中的分词的第二概率;其中,所述第二概率表征所述分词在对象中的出现概率;
基于所述第二概率确定所述短语的所述第一概率。
结合第三方面和/或第三方面的第一种实现方式,本公开在第三方面的第二种实现方式中,基于所述第二概率确定所述短语的所述第一概率,包括:
根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率。
结合第三方面、第三方面的第一种实现方式和/或第三方面的第二种实现方式,本公开在第三方面的第三种实现方式中,根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率,包括:
所述短语对应的所述分词集合中的分词数量少于最大分词数量时,根据所述分词的所述第二概率以及缺少分词数量个平均概率的对数之和确定所述短语的所述第一概率;其中,所述缺少分词数量为所述最大分词数量减去所述短语对应的所述分词集合中的分词数量;所述平均概率为所述短语对应的所述分词集合中所述分词的第二概率的平均值。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式和/或第三方面的第三种实现方式,本公开在第三方面的第四种实现方式中,所述一条或多条计算机指令还被所述处理器执行以实现以下方法步骤:
获取多个样本对象名称;
对多个所述样本对象名称进行分词得到样本分词集合;其中,所述样本分词集合中包括至少一个样本分词;
根据所述样本分词集合确定所述样本分词的第三概率;其中,所述第三概率表征所述样本分词在对象中的出现概率。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式和/或第三方面的第四种实现方式,本公开在第三方面的第五种实现方式中,根据所述样本分词集合确定所述样本分词的第三概率,包括:
统计所述样本分词在所述样本分词集合中的词频;
根据所述词频确定所述样本分词的所述第三概率。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式和/或第三方面的第五种实现方式,本公开在第三方面的第六种实现方式中,确定所述分词集合中的分词的第二概率,包括:
将所述短语对应的所述分词集合中的所述分词与所述样本分词集合进行匹配;
将与所述分词相匹配的所述样本分词的第三概率确定为所述分词的所述第二概率。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式、第三方面的第五种实现方式和/或第三方面的第六种实现方式,本公开在第三方面的第七种实现方式中,将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合,包括:
根据预设的拆分词将所述待处理文本拆分成多个所述短语。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储对象提取装置所用的计算机指令,其包含用于执行上述任一方法所涉及的计算机指令。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例中,对于待处理文本,通过将待处理文本进行拆分得到包括至少一个短语的短语集合,并确定短语集合中短语作为对象的第一概率,进而根据第一概率确定目标短语,并根据目标短语确定待处理文本中包括的目标对象。通过本公开实施例的上述方式,可以在不训练大型模型的情况下采用简明鲁棒的方法从待处理文本中提取出目标对象,并且这种方式相较于人工总结提取规则的方式有更多的鲁棒性,是一种兼顾效率和效果的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的对象提取方法的流程图;
图2示出根据图1所示实施方式的步骤S103的流程图;
图3示出根据本公开一实施方式中获取分词在对象中的出现概率部分的流程图;
图4示出根据图3所示实施方式的步骤S303的流程图;
图5示出根据图2所示实施方式的步骤S202的流程图;
图6示出根据本公开一实施方式的对象提取装置的结构框图;
图7示出根据图6所示实施方式的第一确定模块603的结构框图;
图8示出根据本公开一实施方式中获取分词在对象中的出现概率部分的结构框图;
图9示出根据图8所示实施方式的第四确定模块803的结构框图;
图10示出根据图7所示实施方式的第一确定子模块702的结构框图;
图11是适于用来实现根据本公开一实施方式的对象提取方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出根据本公开一实施方式的对象提取方法的流程图。如图1所示,所述对象名称提取方法包括以下步骤:
在步骤S101中,获取待处理文本;
在步骤S102中,将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合;其中,所述短语集合包括至少一个短语;
在步骤S103中,确定所述短语集合中的短语的第一概率;其中,所述第一概率表征所述短语作为对象的概率;
在步骤S104中,根据所述短语集合中的短语的所述第一概率,确定目标短语;
在步骤S105中,根据所述目标短语确定所述待处理文本中包括的目标对象。
本实施例中,待处理文本可以是从网络中收集到的包含有对象的文本,例如可以是一句话、一段文字。例如,外卖点餐平台为了收集更多的菜品名称,可以从网络中收集菜谱,并从菜谱标题中提取菜品名称。
对象可以是一个短语,因此为了从待处理文本中提取出对象,可以先将待处理文本拆分成多个短语,之后分别确定该多个短语可能为对象的第一概率,并根据该第一概率从多个短语中确定出目标短语,进而根据目标短语确定待处理文本中的目标对象。如果一个短语可能为对象的第一概率较大,则该短语包括目标对象的概率较大。而一个短语作为对象的第一概率与该短语中各分词在对象中出现的概率相关。因此,可以通过短语中分词在对象中的出现概率来确定短语的第一概率。
分词在对象中的出现概率为该分词出现在任意一个对象中的概率,其可以预先通过已知的对象来确定。例如,可以将已知的所有对象中的各个分词分别进行词频统计,根据词频确定各个分词在对象中的出现概率,并建立包括各个分词与出现概率之间的关联关系。
短语作为对象的第一概率与组成该短语的所有分词在对象中的出现概率呈正相关关系,也即组成该短语的各个分词在对象中的出现概率大,则该短语为对象的概率也大。
本公开实施例中,对于待处理文本,通过将待处理文本进行拆分得到包括至少一个短语的短语集合,并确定短语集合中短语作为对象的第一概率,进而根据第一概率确定目标短语,并根据目标短语确定待处理文本中包括的目标对象。通过本公开实施例的上述方式,可以在不训练大型模型的情况下采用简明鲁棒的方法从待处理文本中提取出目标对象,并且这种方式相较于人工总结提取规则的方式有更多的鲁棒性,是一种兼顾效率和效果的方法。
在本实施例的一个可选实现方式中,如图2所示,所述步骤S103,即确定所述短语集合中的短语的第一概率的步骤,进一步包括以下步骤:
在步骤S201中,对所述短语进行分词得到所述短语对应的分词集合;其中,所述分词集合包括至少一个分词;
在步骤S202中,确定所述分词集合中的分词的第二概率;其中,所述第二概率表征所述分词在对象中的出现概率;
在步骤S203中,基于所述第二概率确定所述短语的所述第一概率。
该可选的实现方式中,为了确定短语是否为目标短语,则可以将待处理文本中的多个短语分别进行分词处理,每个短语可以对应得到一个分词集合,该分词集合可以包括一个或多个分词。进而可以根据预先建立的分词与出现概率的对应关系确定每个分词在对象中的出现概率,进而再根据该第二概率确定该短语的第一概率。对短语进行分词,实际上就是将短语中各个分词进行切分,例如“西红柿炒鸡蛋”可以被切分为“西红柿、炒、鸡蛋”三个分词,常用的分词处理方式较多,例如基于规则的分词方式、基于统计的分词方式、基于语义的分词方式等,具体可以根据实际需要进行选择其中一种分词方式,在此不做限制。
在本实施例的一个可选实现方式中,所述步骤S203,即基于所述第二概率确定所述短语的所述第一概率的步骤,进一步包括以下步骤:
根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率。
该可选的实现方式中,如果短语对应的分词集合中的分词的第二概率大,则该短语为目标对象的第一概率也大,为了能够根据分词的第二概率确定多个短语中哪个短语作为目标对象的第一概率最大,则可以通过将短语对应的分词集合中的所有分词的第二概率相乘后的结果进行比较来确定。但是,这种计算方式存在一个问题,就是每个分词的第二概率都较小,多个这种概率相乘容易出现数值溢出的问题,因此本公开采用每个短语包括的所有分词的第二概率的对数之和,并通过比较每个短语对应的该和结果来确定短语的第一概率。例如,短语A包括三个分词a1、a2和a3,这三个分词的第二概率分布为P(a1)、P(a2)、P(a3),而短语A为目标对象的第一概率为P,则logP=log P(a1)+log P(a2)+log P(a3)。
在本实施例的一个可选实现方式中,所述根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率的步骤,进一步包括以下步骤:
所述短语对应的所述分词集合中的分词数量少于最大分词数量时,根据所述分词的所述第二概率以及缺少分词数量个平均概率的对数之和确定所述短语的所述第一概率;其中,所述缺少分词数量为所述最大分词数量减去所述短语对应的所述分词集合中的分词数量;所述平均概率为所述短语对应的所述分词集合中所述分词的第二概率的平均值。
该可选的实现方式中,如上所述,如果短语对应的分词集合的分词的第二概率大,则该短语为目标对象的第一概率也大。为了能够根据分词的第二概率确定多个短语中哪个短语为目标短语,则可以计算短语集合中每个短语对应的分词集合中的所有分词的第二概率的对数之和,并将每个短语对应的该和结果作为该短语的第一概率。但是,这依然存在一个问题,如果待处理文本中包括的多个短语对应的分词集合的分词数量不一致时,分词数量的多少会影响计算结果。因此,本公开实施例采用分词个数对齐的方式,例如可以预先确定待处理文本中多个短语中的最大分词数量(即以分词数量最多的短语为准,将其分词数量设置为最大分词数量),或者预先根据经验设置一最大分词数量。在任一短语中的分词数量少于最大分词数量时,可以采用虚拟分词补齐,也即缺少多少分词,则补充多少个虚拟分词,而该虚拟分词的第二概率则为该短语对应的分词集合中所有分词的第二概率的平均值。例如,最大分词数量为5,而短语A的第一概率计算方式为:logP=log P(a1)+log P(a2)+log P(a3)+log P(虚拟分词)+log P(虚拟分词)。
在本实施例的一个可选实现方式中,如图3所示,所述方法进一步还包括以下步骤:
在步骤S301中,获取多个样本对象;
在步骤S302中,对多个所述样本对象进行分词得到样本分词集合;其中,所述样本分词集合中包括至少一个样本分词;
在步骤S303中,确定所述样本分词在所述样本分词集合中的第三概率;其中,所述第三概率表征所述样本分词在对象中的出现概率。
该可选的实现方式中,可以收集一些样本对象,对每个样本对象进行分词,得到样本分词集合。如果一个样本分词在样本分词集合中经常出现,则可以说明该分词在对象中出现的概率较大,可以理解的是样本分词在样本分词集合中的出现概率与样本分词在对象中的出现概率呈正相关关系,因此可以将样本分词在样本分词集合中的出现概率确定为该样本分词在对象中的出现概率,也即第三概率。
在本实施例的一个可选实现方式中,如图4所示,所述步骤S303,即根据所述样本分词集合确定所述样本分词的第三概率的步骤,进一步包括以下步骤:
在步骤S401中,统计所述样本分词在所述样本分词集合中的词频;
在步骤S402中,根据所述词频确定所述样本分词的所述第三概率。
该可选的实现方式中,样本分词在样本分词集合中的出现概率可以通过统计样本分词集合中各个样本分词的词频来确定。词频高的样本分词在样本分词集合中的出现概率较大,词频低的样本分词在样本分词集合中的出现概率较小。
在本实施例的一个可选实现方式中,如图5所示,所述步骤S202,即确定所述分词集合中的分词的第二概率的步骤,进一步包括以下步骤:
在步骤S501中,将所述短语对应的所述分词集合中的所述分词与所述样本分词集合进行匹配;
在步骤S502中,将与所述分词相匹配的所述样本分词的第三概率确定为所述分词的所述第二概率。
该可选的实现方式中,可以将短语中的分词与上述样本分词集合进行匹配,匹配成功后,将对应的样本分词根据样本分词集合所获得的第三概率确定为该分词的第二概率,也即在对象中的出现概率。
在一些实施例中,将分词与样本分词集合进行匹配可以是将分词与样本分词集合中的每个样本分词进行比较,相同则认为相匹配,不相同则认为不匹配。
而在另一些实施例中,将分词与样本分词集合进行匹配还可以是计算分词与样本分词集合中各个样本分词之间的相似度,在相似度大于或等于预设阈值时,可以认为该分词与该样本分词相匹配,而相似度小于该预设阈值时,则可以认为该分词与该样本分词不匹配。
在本实施例的一个可选实现方式中,所述步骤S102,即将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合的步骤,进一步包括以下步骤:
根据预设的拆分词将所述待处理文本拆分成多个所述短语。
该可选的实现方式中,预设的拆分词包括但不限于标点符号和停用词等,停用词例如可以是没有实际含义的功能词、连接词等,如“的”、“和”等。
例如,外卖点餐平台为了扩充菜品名称,从网络中收集到每一个菜谱标题,去除停用词、标点等部分,并将这些部分替换成空格,并对空格执行拆分,得到多个短语。比如,菜谱标题为“充满森林气息的香蕉牛油果汁”,则其中“的”是停用词,替换后变为“充满森林气息香蕉牛油果汁”,并对这句话进行拆分,拆分成两个短语[充满森林气息,香蕉牛油果汁]。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图6示出根据本公开一实施方式的对象提取装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6所示,所述对象提取装置包括:
获取模块601,被配置为获取待处理文本;
拆分模块602,被配置为将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合;其中,所述短语集合包括至少一个短语;
第一确定模块603,被配置为确定所述短语集合中的短语的第一概率;其中,所述第一概率表征所述短语作为对象的概率;
第二确定模块604,被配置为根据所述短语集合中的短语的所述第一概率,确定目标短语;
第三确定模块605,被配置为根据所述目标短语确定所述待处理文本中包括的目标对象。
本实施例中,待处理文本可以是从网络中收集到的包含有对象的文本,例如可以是一句话、一段文字。例如,外卖点餐平台为了收集更多的菜品名称,可以从网络中收集菜谱,并从菜谱标题中提取菜品名称。
对象可以是一个短语,因此为了从待处理文本中提取出对象,可以先将待处理文本拆分成多个短语,之后分别确定该多个短语可能为对象的第一概率,并根据该第一概率从多个短语中确定出目标短语,进而根据目标短语确定待处理文本中的目标对象。如果一个短语可能为对象的第一概率较大,则该短语包括目标对象的概率较大。而一个短语作为对象的第一概率与该短语中各分词在对象中出现的概率相关。因此,可以通过短语中分词在对象中的出现概率来确定短语的第一概率。
分词在对象中的出现概率为该分词出现在任意一个对象中的概率,其可以预先通过已知的对象来确定。例如,可以将已知的所有对象中的各个分词分别进行词频统计,根据词频确定各个分词在对象中的出现概率,并建立包括各个分词与出现概率之间的关联关系。
短语作为对象的第一概率与组成该短语的所有分词在对象中的出现概率呈正相关关系,也即组成该短语的各个分词在对象中的出现概率大,则该短语为对象的概率也大。
本公开实施例中,对于待处理文本,通过将待处理文本进行拆分得到包括至少一个短语的短语集合,并确定短语集合中短语作为对象的第一概率,进而根据第一概率确定目标短语,并根据目标短语确定待处理文本中包括的目标对象。通过本公开实施例的上述方式,可以在不训练大型模型的情况下采用简明鲁棒的方法从待处理文本中提取出目标对象,并且这种方式相较于人工总结提取规则的方式有更多的鲁棒性,是一种兼顾效率和效果的方法。
在本实施例的一个可选实现方式中,如图7所示,所述第一确定模块603,包括:
分词子模块701,被配置为对所述短语进行分词得到所述短语对应的分词集合;其中,所述分词集合包括至少一个分词;
第一确定子模块702,被配置为确定所述分词集合中的分词的第二概率;其中,所述第二概率表征所述分词在对象中的出现概率;
第二确定子模块703,被配置为基于所述第二概率确定所述短语的所述第一概率。
该可选的实现方式中,为了确定短语是否为目标短语,则可以将待处理文本中的多个短语分别进行分词处理,每个短语可以对应得到一个分词集合,该分词集合可以包括一个或多个分词。进而可以根据预先建立的分词与出现概率的对应关系确定每个分词在对象中的出现概率,进而再根据该第二概率确定该短语的第一概率。对短语进行分词,实际上就是将短语中各个分词进行切分,例如“西红柿炒鸡蛋”可以被切分为“西红柿、炒、鸡蛋”三个分词,常用的分词处理方式较多,例如基于规则的分词方式、基于统计的分词方式、基于语义的分词方式等,具体可以根据实际需要进行选择其中一种分词方式,在此不做限制。
在本实施例的一个可选实现方式中,所述第二确定子模块703,包括:
第三确定子模块,被配置为根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率。
该可选的实现方式中,如果短语对应的分词集合中的分词的第二概率大,则该短语为目标对象的第一概率也大,为了能够根据分词的第二概率确定多个短语中哪个短语作为目标对象的第一概率最大,则可以通过将短语对应的分词集合中的所有分词的第二概率相乘后的结果进行比较来确定。但是,这种计算方式存在一个问题,就是每个分词的第二概率都较小,多个这种概率相乘容易出现数值溢出的问题,因此本公开采用每个短语包括的所有分词的第二概率的对数之和,并通过比较每个短语对应的该和结果来确定短语的第一概率。例如,短语A包括三个分词a1、a2和a3,这三个分词的第二概率分布为P(a1)、P(a2)、P(a3),而短语A为目标对象的第一概率为P,则logP=log P(a1)+log P(a2)+log P(a3)。
在本实施例的一个可选实现方式中,所述第三确定子模块,包括:
第四确定子模块,被配置为所述短语对应的所述分词集合中的分词数量少于最大分词数量时,根据所述分词的所述第二概率以及缺少分词数量个平均概率的对数之和确定所述短语的所述第一概率;其中,所述缺少分词数量为所述最大分词数量减去所述短语对应的所述分词集合中的分词数量;所述平均概率为所述短语对应的所述分词集合中所述分词的第二概率的平均值。
该可选的实现方式中,如上所述,如果短语对应的分词集合的分词的第二概率大,则该短语为目标对象的第一概率也大。为了能够根据分词的第二概率确定多个短语中哪个短语为目标短语,则可以计算短语集合中每个短语对应的分词集合中的所有分词的第二概率的对数之和,并将每个短语对应的该和结果作为该短语的第一概率。但是,这依然存在一个问题,如果待处理文本中包括的多个短语对应的分词集合的分词数量不一致时,分词数量的多少会影响计算结果。因此,本公开实施例采用分词个数对齐的方式,例如可以预先确定待处理文本中多个短语中的最大分词数量(即以分词数量最多的短语为准,将其分词数量设置为最大分词数量),或者预先根据经验设置一最大分词数量。在任一短语中的分词数量少于最大分词数量时,可以采用虚拟分词补齐,也即缺少多少分词,则补充多少个虚拟分词,而该虚拟分词的第二概率则为该短语对应的分词集合中所有分词的第二概率的平均值。例如,最大分词数量为5,而短语A的第一概率计算方式为:logP=log P(a1)+log P(a2)+log P(a3)+log P(虚拟分词)+log P(虚拟分词)。
在本实施例的一个可选实现方式中,如图8所示,所述装置进一步还包括:
第二获取模块801,被配置为获取多个样本对象;
分词模块802,被配置为对多个所述样本对象进行分词得到样本分词集合;其中,所述样本分词集合中包括至少一个样本分词;
第四确定模块803,被配置为根据所述样本分词集合确定所述样本分词的第三概率;其中,所述第三概率表征所述样本分词在对象中的出现概率。
该可选的实现方式中,可以收集一些样本对象,对每个样本对象进行分词,得到样本分词集合。如果一个样本分词在样本分词集合中经常出现,则可以说明该分词在对象中出现的概率较大,可以理解的是样本分词在样本分词集合中的出现概率与样本分词在对象中的出现概率呈正相关关系,因此可以将样本分词在样本分词集合中的出现概率确定为该样本分词在对象中的出现概率,也即第三概率。
在本实施例的一个可选实现方式中,如图9所示,所述第四确定模块803,包括:
统计子模块901,被配置为统计所述样本分词在所述样本分词集合中的词频;
第五确定子模块902,被配置为根据所述词频确定所述样本分词的所述第三概率。
该可选的实现方式中,样本分词在样本分词集合中的出现概率可以通过统计样本分词集合中各个样本分词的词频来确定。词频高的样本分词在样本分词集合中的出现概率较大,词频低的样本分词在样本分词集合中的出现概率较小。
在本实施例的一个可选实现方式中,如图10所示,所述第一确定子模块702,包括:
匹配子模块1001,被配置为将所述短语对应的所述分词集合中的所述分词与所述样本分词集合进行匹配;
第六确定子模块1002,被配置为将与所述分词相匹配的所述样本分词的第三概率确定为所述分词的所述第二概率。
该可选的实现方式中,可以将短语中的分词与上述样本分词集合进行匹配,匹配成功后,将对应的样本分词根据样本分词集合所获得的第三概率确定为该分词的第二概率,也即在对象中的出现概率。
在一些实施例中,将分词与样本分词集合进行匹配可以是将分词与样本分词集合中的每个样本分词进行比较,相同则认为相匹配,不相同则认为不匹配。
而在另一些实施例中,将分词与样本分词集合进行匹配还可以是计算分词与样本分词集合中各个样本分词之间的相似度,在相似度大于或等于预设阈值时,可以认为该分词与该样本分词相匹配,而相似度小于该预设阈值时,则可以认为该分词与该样本分词不匹配。
在本实施例的一个可选实现方式中,所述拆分模块602,包括:
拆分子模块,被配置为根据预设的拆分词将所述待处理文本拆分成多个所述短语。
该可选的实现方式中,预设的拆分词包括但不限于标点符号和停用词等,停用词例如可以是没有实际含义的功能词、连接词等,如“的”、“和”等。
例如,外卖点餐平台为了扩充菜品名称,从网络中收集到每一个菜谱标题,去除停用词、标点等部分,并将这些部分替换成空格,并对空格执行拆分,得到多个短语。比如,菜谱标题为“充满森林气息的香蕉牛油果汁”,则其中“的”是停用词,替换后变为“充满森林气息香蕉牛油果汁”,并对这句话进行拆分,拆分成两个短语[充满森林气息,香蕉牛油果汁]。
本公开实施方式还提供了一种电子设备,如图11所示,包括至少一个处理器1101;以及与至少一个处理器1101通信连接的存储器1102;其中,存储器1102存储有可被至少一个处理器1101执行的指令,指令被至少一个处理器1101执行以实现:
获取待处理文本;
将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合;其中,所述短语集合包括至少一个短语;
确定所述短语集合中的短语的第一概率;其中,所述第一概率表征所述短语作为对象的概率;
根据所述短语集合中的短语的所述第一概率,确定目标短语;
根据所述目标短语确定所述待处理文本中包括的目标对象。
其中,确定所述短语集合中的短语的第一概率,包括:
对所述短语进行分词得到所述短语对应的分词集合;其中,所述分词集合包括至少一个分词;
确定所述分词集合中的分词的第二概率;其中,所述第二概率表征所述分词在对象中的出现概率;
基于所述第二概率确定所述短语的所述第一概率。
其中,基于所述第二概率确定所述短语的所述第一概率,包括:
根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率。
其中,根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率,包括:
所述短语对应的所述分词集合中的分词数量少于最大分词数量时,根据所述分词的所述第二概率以及缺少分词数量个平均概率的对数之和确定所述短语的所述第一概率;其中,所述缺少分词数量为所述最大分词数量减去所述短语对应的所述分词集合中的分词数量;所述平均概率为所述短语对应的所述分词集合中所述分词的第二概率的平均值。
其中,所述一条或多条计算机指令还被所述处理器执行以实现以下方法步骤:
获取多个样本对象名称;
对多个所述样本对象名称进行分词得到样本分词集合;其中,所述样本分词集合中包括至少一个样本分词;
根据所述样本分词集合确定所述样本分词的第三概率;其中,所述第三概率表征所述样本分词在对象中的出现概率。
其中,根据所述样本分词集合确定所述样本分词的第三概率,包括:
统计所述样本分词在所述样本分词集合中的词频;
根据所述词频确定所述样本分词的所述第三概率。
其中,确定所述分词集合中的分词的第二概率,包括:
将所述短语对应的所述分词集合中的所述分词与所述样本分词集合进行匹配;
将与所述分词相匹配的所述样本分词的第三概率确定为所述分词的所述第二概率。
其中,将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合,包括:
根据预设的拆分词将所述待处理文本拆分成多个所述短语。
具体地,处理器1101、存储器1102可以通过总线或者其他方式连接,图11中以通过总线连接为例。存储器1102作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器1101通过运行存储在存储器1102中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现本公开实施例中的上述方法。
存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储航运网络运输的历史数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,电子设备可选地包括通信组件1103,存储器1102可选地包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过通信组件1103连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器1102中,当被一个或者多个处理器1101执行时,执行本公开实施例中的上述方法。
上述产品可执行本公开实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本公开实施方式所提供的方法。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (18)
1.一种对象提取方法,其特征在于,包括:
获取待处理文本,所述待处理文本包括从网络中收集的包含有对象的菜谱,所述对象包括菜品名称;
将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合;其中,所述短语集合包括至少一个短语;
确定所述短语集合中的短语的第一概率;其中,所述第一概率表征所述短语作为对象的概率;所述第一概率为根据所述短语中分词出现在任意一个对象中的概率确定的,所述第一概率与组成所述短语的所有分词在所述对象中的出现概率呈正相关关系;
根据所述短语集合中的短语的所述第一概率,确定目标短语;
根据所述目标短语确定所述待处理文本中包括的目标对象;
所述确定所述短语集合中的短语的第一概率之前,所述方法还包括:
将已知的所有对象中的各个分词分别进行词频统计,根据词频统计结果确定各个分词在各个对象中的出现概率,并建立包括各个分词与出现概率之间的关联关系;
所述确定所述短语集合中的短语的第一概率,包括:
根据所述关联关系确定所述第一概率。
2.根据权利要求1所述的方法,其特征在于,确定所述短语集合中的短语的第一概率,包括:
对所述短语进行分词得到所述短语对应的分词集合;其中,所述分词集合包括至少一个分词;
确定所述分词集合中的分词的第二概率;其中,所述第二概率表征所述分词在对象中的出现概率;
基于所述第二概率确定所述短语的所述第一概率。
3.根据权利要求2所述的方法,其特征在于,基于所述第二概率确定所述短语的所述第一概率,包括:
根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率。
4.根据权利要求3所述的方法,其特征在于,根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率,包括:
所述短语对应的所述分词集合中的分词数量少于最大分词数量时,根据所述分词的所述第二概率以及缺少分词数量个平均概率的对数之和确定所述短语的所述第一概率;其中,所述缺少分词数量为所述最大分词数量减去所述短语对应的所述分词集合中的分词数量;所述平均概率为所述短语对应的所述分词集合中所述分词的第二概率的平均值。
5.根据权利要求2-4任一项所述的方法,其特征在于,还包括:
获取多个样本对象;
对多个所述样本对象进行分词得到样本分词集合;其中,所述样本分词集合中包括至少一个样本分词;
根据所述样本分词集合确定所述样本分词的第三概率;其中,所述第三概率表征所述样本分词在对象中的出现概率。
6.根据权利要求5所述的方法,其特征在于,根据所述样本分词集合确定所述样本分词的第三概率,包括:
统计所述样本分词在所述样本分词集合中的词频;
根据所述词频确定所述样本分词的所述第三概率。
7.根据权利要求5所述的方法,其特征在于,确定所述分词集合中的分词的第二概率,包括:
将所述短语对应的所述分词集合中的所述分词与所述样本分词集合进行匹配;
将与所述分词相匹配的所述样本分词的第三概率确定为所述分词的所述第二概率。
8.根据权利要求1-4、6-7任一项所述的方法,其特征在于,将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合,包括:
根据预设的拆分词将所述待处理文本拆分成多个所述短语。
9.一种对象提取装置,其特征在于,包括:
获取模块,被配置为获取待处理文本,所述待处理文本包括从网络中收集的包含有对象的菜谱,所述对象包括菜品名称;
拆分模块,被配置为将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合;其中,所述短语集合包括至少一个短语;
第一确定模块,被配置为确定所述短语集合中的短语的第一概率;其中,所述第一概率表征所述短语作为对象的概率;所述第一概率为根据所述短语中分词出现在任意一个对象中的概率确定的,所述第一概率与组成所述短语的所有分词在所述对象中的出现概率呈正相关关系;
所述确定所述短语集合中的短语的第一概率之前,还包括:
将已知的所有对象中的各个分词分别进行词频统计,根据词频统计结果确定各个分词在各个对象中的出现概率,并建立包括各个分词与出现概率之间的关联关系;
所述确定所述短语集合中的短语的第一概率,包括:
根据所述关联关系确定所述第一概率;
第二确定模块,被配置为根据所述短语集合中的短语的所述第一概率,确定目标短语;
第三确定模块,被配置为根据所述目标短语确定所述待处理文本中包括的目标对象。
10.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:
获取待处理文本,所述待处理文本包括从网络中收集的包含有对象的菜谱,所述对象包括菜品名称;
将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合;其中,所述短语集合包括至少一个短语;
确定所述短语集合中的短语的第一概率;其中,所述第一概率表征所述短语作为对象的概率;所述第一概率为根据所述短语中分词出现在任意一个对象中的概率确定的,所述第一概率与组成所述短语的所有分词在所述对象中的出现概率呈正相关关系;
根据所述短语集合中的短语的所述第一概率,确定目标短语;
根据所述目标短语确定所述待处理文本中包括的目标对象;
所述确定所述短语集合中的短语的第一概率之前,还包括:
将已知的所有对象中的各个分词分别进行词频统计,根据词频统计结果确定各个分词在各个对象中的出现概率,并建立包括各个分词与出现概率之间的关联关系;
所述确定所述短语集合中的短语的第一概率,包括:
根据所述关联关系确定所述第一概率。
11.根据权利要求10所述的电子设备,其特征在于,确定所述短语集合中的短语的第一概率,包括:
对所述短语进行分词得到所述短语对应的分词集合;其中,所述分词集合包括至少一个分词;
确定所述分词集合中的分词的第二概率;其中,所述第二概率表征所述分词在对象中的出现概率;
基于所述第二概率确定所述短语的所述第一概率。
12.根据权利要求11所述的电子设备,其特征在于,基于所述第二概率确定所述短语的所述第一概率,包括:
根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率。
13.根据权利要求12所述的电子设备,其特征在于,根据所述短语对应的所述分词集合中所述分词的所述第二概率的对数之和确定所述短语的第一概率,包括:
所述短语对应的所述分词集合中的分词数量少于最大分词数量时,根据所述分词的所述第二概率以及缺少分词数量个平均概率的对数之和确定所述短语的所述第一概率;其中,所述缺少分词数量为所述最大分词数量减去所述短语对应的所述分词集合中的分词数量;所述平均概率为所述短语对应的所述分词集合中所述分词的第二概率的平均值。
14.根据权利要求11-13任一项所述的电子设备,其特征在于,所述一条或多条计算机指令还被所述处理器执行以实现以下方法步骤:
获取多个样本对象名称;
对多个所述样本对象名称进行分词得到样本分词集合;其中,所述样本分词集合中包括至少一个样本分词;
根据所述样本分词集合确定所述样本分词的第三概率;其中,所述第三概率表征所述样本分词在对象中的出现概率。
15.根据权利要求14所述的电子设备,其特征在于,根据所述样本分词集合确定所述样本分词的第三概率,包括:
统计所述样本分词在所述样本分词集合中的词频;
根据所述词频确定所述样本分词的所述第三概率。
16.根据权利要求14所述的电子设备,其特征在于,确定所述分词集合中的分词的第二概率,包括:
将所述短语对应的所述分词集合中的所述分词与所述样本分词集合进行匹配;
将与所述分词相匹配的所述样本分词的第三概率确定为所述分词的所述第二概率。
17.根据权利要求10-13、15-16任一项所述的电子设备,其特征在于,将所述待处理文本进行拆分,获取与所述待处理文本对应的短语集合,包括:
根据预设的拆分词将所述待处理文本拆分成多个所述短语。
18.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936164.8A CN112579869B (zh) | 2019-09-29 | 2019-09-29 | 对象提取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936164.8A CN112579869B (zh) | 2019-09-29 | 2019-09-29 | 对象提取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112579869A CN112579869A (zh) | 2021-03-30 |
CN112579869B true CN112579869B (zh) | 2022-02-01 |
Family
ID=75111135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910936164.8A Expired - Fee Related CN112579869B (zh) | 2019-09-29 | 2019-09-29 | 对象提取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579869B (zh) |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075304A (zh) * | 2006-05-18 | 2007-11-21 | 河北全通通信有限公司 | 电信行业基于数据仓库的决策支持系统的构造方法 |
CN102298588B (zh) * | 2010-06-25 | 2014-04-30 | 株式会社理光 | 从非结构化文档中抽取对象的方法和装置 |
US9633009B2 (en) * | 2013-08-01 | 2017-04-25 | International Business Machines Corporation | Knowledge-rich automatic term disambiguation |
CN104951430B (zh) * | 2014-03-27 | 2019-03-12 | 上海携程商务有限公司 | 产品特征标签的提取方法及装置 |
CN107102980A (zh) * | 2016-02-19 | 2017-08-29 | 北京国双科技有限公司 | 情感信息的提取方法及装置 |
CN107463548B (zh) * | 2016-06-02 | 2021-04-27 | 阿里巴巴集团控股有限公司 | 短语挖掘方法及装置 |
CN106227661B (zh) * | 2016-07-22 | 2019-01-08 | 腾讯科技(深圳)有限公司 | 数据处理方法及装置 |
CN108241667B (zh) * | 2016-12-26 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN107273356B (zh) * | 2017-06-14 | 2020-08-11 | 北京百度网讯科技有限公司 | 基于人工智能的分词方法、装置、服务器和存储介质 |
CN110008309B (zh) * | 2019-03-21 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 一种短语挖掘方法及装置 |
CN110134951B (zh) * | 2019-04-29 | 2021-08-31 | 淮阴工学院 | 一种分析文本数据潜在主题短语的方法及系统 |
CN110147558B (zh) * | 2019-05-28 | 2023-07-25 | 北京金山数字娱乐科技有限公司 | 一种翻译语料处理的方法和装置 |
-
2019
- 2019-09-29 CN CN201910936164.8A patent/CN112579869B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN112579869A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105389722B (zh) | 恶意订单识别方法及装置 | |
CN106355431B (zh) | 作弊流量检测方法、装置及终端 | |
CN110110577B (zh) | 识别菜名的方法及装置、存储介质、电子装置 | |
CN111274239B (zh) | 试卷结构化处理方法、装置和设备 | |
CN109492644A (zh) | 一种习题图像的匹配识别方法及终端设备 | |
CN107491536B (zh) | 一种试题校验方法、试题校验装置及电子设备 | |
CN104915359A (zh) | 主题标签推荐方法及装置 | |
CN112579869B (zh) | 对象提取方法、装置、电子设备及存储介质 | |
CN112802469A (zh) | 一种获取语音识别模型训练数据的方法及装置 | |
CN112287800A (zh) | 一种无样本条件下的广告视频识别方法及系统 | |
CN109145879B (zh) | 一种打印字体识别的方法、设备及存储介质 | |
CN109101480B (zh) | 一种企业名称的切分方法、装置及计算机可读存储介质 | |
CN116310994A (zh) | 一种视频片段提取方法、装置、电子设备及介质 | |
CN115906797A (zh) | 文本实体对齐方法、装置、设备及介质 | |
CN110569504A (zh) | 一种关系词确定方法及装置 | |
CN107577667B (zh) | 一种实体词处理方法和装置 | |
CN114398952A (zh) | 训练文本生成方法、装置、电子设备及存储介质 | |
CN109507645B (zh) | 一种脉冲描述字的提取方法及装置 | |
CN113609315A (zh) | 一种媒资相似度的判定方法、装置、电子设备和存储介质 | |
CN109741731B (zh) | 一种语种训练数据获得方法及装置 | |
CN112446812A (zh) | 一种基于区块链的政务信息自动推送方法及终端 | |
CN108021918B (zh) | 文字识别方法及装置 | |
CN107977360B (zh) | 一种影视剧本中人物阵营的识别和划分方法 | |
CN107885722B (zh) | 一种关键词抽取方法和装置 | |
CN113780485B (zh) | 图像获取、目标识别、模型训练方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220201 |