CN117992576A - 一种需求物品的识别方法、装置和程序产品 - Google Patents
一种需求物品的识别方法、装置和程序产品 Download PDFInfo
- Publication number
- CN117992576A CN117992576A CN202410269122.4A CN202410269122A CN117992576A CN 117992576 A CN117992576 A CN 117992576A CN 202410269122 A CN202410269122 A CN 202410269122A CN 117992576 A CN117992576 A CN 117992576A
- Authority
- CN
- China
- Prior art keywords
- text
- identified
- article
- keywords
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 239000000470 constituent Substances 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008531 maintenance mechanism Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001376 precipitating effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种需求物品的识别方法、装置和程序产品,涉及计算机技术领域。该方法的一具体实施方式包括:响应于接收到需求物品识别请求,获取待识别文本;对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词;查找所述关键词对应的预设的物品知识词库,将所述关键词和对应的物品知识词库进行匹配检索,根据匹配检索的结果,得到所述待识别文本的需求物品。该实施方式实现了自动、准确的识别需求物品,不仅提高了识别的准确率,而且还提升了识别效率,降低了识别成本。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种需求物品的识别方法、装置和程序产品。
背景技术
在工业品交易领域,交易平台通过从接收到的采购清单中识别出对应的物品来确定用户需要的采购品。由于工业品(机器、设备、原材料、工具、零部件等)通常存在一物多名(同一种物品有多个名字)、一品多商(同一种物品有多个商家)、一值多表述(一种数值有多种表述)等情况,采购清单中往往是不规范的文本描述,导致目前主要通过模糊匹配或者人工识别的方式对采购清单中的需求物品进行识别。
在实现本发明过程中,发明人发现现有技术中存在如下问题:
模糊匹配的方式不能满足工业领域中选型级别的精准匹配需求,而人工识别需要人员具备一定的专业知识,且耗时较长、成本高,现有的两种方式均不能很好地满足实际需要。
发明内容
有鉴于此,本发明实施例提供一种需求物品的识别方法、装置和程序产品,实现了自动、准确的识别需求物品,不仅提高了识别的准确率,而且还提升了识别效率,降低了识别成本。
为实现所述目的,根据本发明实施例的一个方面,提供了一种需求物品的识别方法,包括:
响应于接收到需求物品识别请求,获取待识别文本;
对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词;
查找所述关键词对应的预设的物品知识词库,将所述关键词和对应的物品知识词库进行匹配检索,根据匹配检索的结果,得到所述待识别文本的需求物品。
可选地,对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词,包括:将所述待识别文本输入到预先构建的识别模型,由所述识别模型对所述待识别文本进行句式解析、语义槽位标记,以及关键词提取。
可选地,将所述待识别文本输入到预先构建的识别模型之前,所述方法还包括:通过配置物品需求的文本句式模版,以及对所述文本句式模版中的组成元素进行语义槽位标记,构建训练样本集;使用所述训练样本集训练初始识别模型,得到识别模型。
可选地,对所述待识别文本进行句式解析之前,所述方法还包括:对所述待识别文本进行分词处理,得到分词文本。
可选地,得到分词文本之后,所述方法还包括:对所述分词文本进行无效词过滤,得到有效的分词文本,并将过滤掉的无效词加入无效词知识词库。
可选地,查找所述关键词对应的预设的物品知识词库,包括:根据所述关键词所属的语义槽位,从预设的物品知识词库集中查找与所述语义槽位对应的预设的物品知识词库,得到所述关键词对应的预设的物品知识词库。
可选地,根据匹配检索的结果,得到所述待识别文本的需求物品,包括:从全量物品池中查找符合所述匹配检索的结果的目标物品,将所述目标物品作为所述待识别文本的需求物品。
可选地,从全量物品池中查找符合所述匹配检索的结果的目标物品,包括:将所述匹配检索的结果和所述全量物品池中各个物品的属性信息进行文本相似度比对;根据相似度比对的结果进行筛选评分,将所述全量物品池中评分最高的物品作为所述目标物品。
可选地,得到所述待识别文本的需求物品之后,所述方法还包括:对所述待识别文本的需求物品,以及语义槽位标记的结果进行核查校验;根据核查校验的结果,更新所述识别模型和所述物品知识词库。
根据本发明实施例的第二方面,提供一种需求物品的识别装置,包括:
文本获取模块,用于响应于接收到需求物品识别请求,获取待识别文本;
关键词提取模块,用于对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词;
物品获取模块,用于查找所述关键词对应的预设的物品知识词库,将所述关键词和对应的物品知识词库进行匹配检索,根据匹配检索的结果,得到所述待识别文本的需求物品。
根据本发明实施例的第三方面,提供一种需求物品的电子识别设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例第一方面提供的方法。
根据本发明实施例的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例第一方面提供的方法。
根据本发明实施例的第五方面,提供了一种计算机程序产品。本申请实施例的一种计算机程序产品,包括计算机程序,程序被处理器执行时实现本申请实施例提供的数据展示的方法。
所述发明中的一个实施例具有如下优点或有益效果:通过响应于接收到需求物品识别请求,获取待识别文本;对待识别文本进行句式解析和语义槽位标记,提取出待识别文本的关键词;查找关键词对应的预设的物品知识词库,将关键词和对应的物品知识词库进行匹配检索,根据匹配检索的结果,得到待识别文本的需求物品的技术方案,实现了一种自动、准确的需求物品的识别方法,不仅提高了识别的准确率,而且还提升了识别效率,降低了识别成本。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的需求物品的识别方法的主要流程的示意图;
图2是本发明实施例的需求物品的识别方法的整体流程示意图;
图3是根据本发明实施例的需求物品的识别装置的主要模块示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
需要说明的是,本发明的技术方案中,所涉及的用户个人信息的采集/收集、更新、分析、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法且合理的用途,不在这些合法使用等方面之外共享、泄露或出售,并且接受国家监管部门的监督管理。应当对用户个人信息采取必要措施,选择性地阻止使用或访问个人信息数据,以防止对此类个人信息数据的非法访问,确保有权访问个人信息数据的人员遵守相关法律法规的规定,确保用户个人信息安全。此外,一旦不再需要这些用户个人信息数据,应当通过限制甚至禁止数据收集和/或删除数据的方式将风险降至最低。
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
现有需求物品的识别方法中模糊匹配的方式不能满足工业领域中选型级别的精准匹配需求,而人工识别需要人员具备一定的专业知识,且耗时较长、成本高,所以常用的两种方式均不能很好地满足实际需要。
为了解决现有技术中存在的上述问题,本发明提出一种需求物品的识别方法,通过对待识别文本的句式解析和语义槽位标记,提取出关键词,再根据关键词和知识词库匹配的结果得到待识别文本中的需求物品。实现了自动、准确的识别需求物品,不仅提高了识别的准确率,而且还提升了识别效率,降低了识别成本。
图1是根据本发明实施例的需求物品的识别方法的主要流程的示意图,如图1所示,本发明实施例的需求物品的识别方法包括如下的步骤S101至步骤S103。
步骤S101、响应于接收到需求物品识别请求,获取待识别文本。
具体地,用户将需求的工业品编辑为采购清单发送给交易平台,交易平台接收到采购清单,启动对采购清单中包含的需求物品的识别,触发需求物品识别请求。识别单元/系统接收到需求物品识别请求,通过解析该识别请求,获取待识别文本。此中的待识别文本可以是上述的采购清单,也可以是将采购清单按照交易平台约定的格式进行转换后的平台化的采购清单,具体内容可以包括物品名称、型号、规格参数、数量等。
步骤S102、对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词。
具体地,对于获取到的待识别文本,可以使用正则表达式的方式,通过预先定义的标志性的词来对待识别文本进行句式解析和语义槽位标记,其中的语义槽位主要指文本中带有语义属性的信息结构。具体解析和标记的示例如下:如果待识别文本中有单位名称盒、个、瓶、套等,那么其附近的内容可以判定是需求物品的数量,相应地,在这个位置标记数量的语义槽位;或者枚举所有工业品的品牌,通过待识别文本中的词和枚举的品牌的匹配来解析品牌和标记品牌的语义槽位。最后根据解析和语义槽位标记的结果,从待识别文本中提取出关键词,也就是待识别文本中可以用于准确识别出需求物品的词。
根据本发明的一个实施例,对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词,包括:将所述待识别文本输入到预先构建的识别模型,由所述识别模型对所述待识别文本进行句式解析、语义槽位标记,以及关键词提取。
具体地,考虑到关键词对需求物品识别的准确性具有重要的作用,本发明实施例为了保证关键词提取的准确性,使用预先训练构建的识别模型来对待识别文本进行句式解析和语义槽位标记,根据标记的语义槽位,从待识别文本中提取其中的关键词。
根据本发明的另一个实施例,将所述待识别文本输入到预先构建的识别模型之前,所述方法还包括:通过配置物品需求的文本句式模版,以及对所述文本句式模版中的组成元素进行语义槽位标记,构建训练样本集;使用所述训练样本集训练初始识别模型,得到识别模型。
具体地,基于先验知识,明确各类工业品的主要属性,将各个主要属性进行拼接组合,得到物品需求的文本句式模版,并保存到配置中心。例如文本句式模版为:我要N个厂家A型号C的物品名称B,或者我要厂家A型号C的物品名称B数量N个。相应地,为各个文本句式模版中的组成字词标记语义槽位,以我要N个厂家A型号C的物品名称B为例,其对应的语义槽位标记结果为:【N个】【厂家A】【型号C】的【物品名称B】,第一个【】表示数量槽位,第二个【】表示厂家槽位,第三个【】表示型号槽位,第四个【】表示名称槽位。将配置的文本句式模板和对应的语义槽位标记组成训练样本集,使用训练样本集训练预设的NLP(自然语言处理)初始识别模型,得到本发明实施例用于关键词提取的识别模型。
通过上述训练样本集的构建和对初始识别模型的训练,使得训练构建后的识别模型对输入的待识别文本具有较好的句式解析和语义槽位标记的能力,进而提取出高质量准确的关键词。
根据本发明的再一个实施例,对所述待识别文本进行句式解析之前,所述方法还包括:对所述待识别文本进行分词处理,得到分词文本。
具体地,为了便于识别模型对待识别文本的句式解析,在对待识别文本进行句式解析之前,使用分词器对待识别文本进行分词处理,得到分词器输出的分词文本,进而使用识别模型对分词后的分词文本进行句式解析和语义槽位标记。
根据本发明的又一个实施例,得到分词文本之后,所述方法还包括:对所述分词文本进行无效词过滤,得到有效的分词文本,并将过滤掉的无效词加入无效词知识词库。
具体地,为了提升识别模型提取关键词的效率和准确率,在得到分词文本之后,可以进一步对分词文本进行无效词过滤,例如“我要”、“帮我购买”、“请问”、“可以吗”,以及宣传语等这些与物品描述不相关的无效词,滤除分词文本中包括的无效词,得到有效的分词文本,进而使用识别模型对有效的分词文本进行句式解析和语义槽位标记,并将滤除的无效词加入无效词知识词库,以便后续再进行无效词过滤时,使用无效词知识词库进行过滤。
步骤S103、查找所述关键词对应的预设的物品知识词库,将所述关键词和对应的物品知识词库进行匹配检索,根据匹配检索的结果,得到所述待识别文本的需求物品。
具体地,本发明实施例预设了物品各种属性对应的知识词库,例如品牌知识词库、型号知识词库、物品名称知识词库等。需要说明的,在上述对文本句式模版中的组成元素进行语义槽位标记过程中,还会把语义槽位中的词也同步更新到对应的知识词库,以尽可能丰富知识词库,让知识词库尽量覆盖到所有常用通用的物品属性值,同时也会不可避免的遇到同义不同表述的词,将这些同义不同表述的词汇总到知识词库中,还会遇到不规范的表述,将这些不规范的表述词映射到知识词库中规范的表述词,所以本质上来说知识词库是对关键词的标准化转换,以将用户风格的需求物品表述转换为交易平台标准化的表述形式。
进一步地,通过对关键词的词义解析理解,可以从预设的所有的物品知识词库中查找确定关键词对应的预设的物品知识词库,将关键词和对应的物品知识词库进行匹配,从对应的物品知识词库中匹配检索出与关键词具有同义表述的标准关键词,即得到待识别文本中表征物品属性的标准关键词,这也就是匹配检索的结果,进而明确交易平台中符合标准关键词的在售物品,将在售物品作为需求物品返回给用户,并把该在售物品的交易信息一并返回给该用户。
根据本发明的一个实施例,查找所述关键词对应的预设的物品知识词库,包括:根据所述关键词所属的语义槽位,从预设的物品知识词库集中查找与所述语义槽位对应的预设的物品知识词库,得到所述关键词对应的预设的物品知识词库。
具体地,在上述对文本句式模版中的组成元素进行语义槽位标记后,由于语义槽位本质上来说是物品属性名,而预设的各个物品知识词库也是以物品属性名来定义的,所以也可以不用再对关键词进行词义解析理解,采用更可靠的槽位关联方法,将标记的语义槽位和预设的物品知识词库进行关联对应,例如型号槽位对应型号知识词库、物品名称槽位对应物品名称知识词库。基于语义槽位和物品知识词库的关联对应关系,根据关键词所属的语义槽位,查找到该语义槽位对应的物品知识词库,得到该关键词对应的物品知识词库。
根据本发明的另一个实施例,根据匹配检索的结果,得到所述待识别文本的需求物品,包括:从全量物品池中查找符合所述匹配检索的结果的目标物品,将所述目标物品作为所述待识别文本的需求物品。
具体地,根据匹配检索的结果,从交易平台现有的全量在售物品池中查找符合匹配检索的结果的目标物品,即得到待识别文本的需求物品。
可以理解地,本发明实施例关键词通常是多个,在关键词有多个的情况下,就是将待识别文本中的各个关键词和对应的物品知识词库进行匹配检索,得到待识别文本的所有关键词的匹配检索的结果后,一次性地从物品池中查找符合所有关键词的匹配检索的结果的目标物品。也可以有序地对所有关键词中的第一关键词,进行对应物品知识词库的匹配检索,得到第一关键词的匹配检索的结果,从物品池中查找符合第一关键词的匹配检索的结果的第一目标物品,按照上述方法,再从第一目标物品中查找满足下一个关键词的匹配检索的结果的第二目标物品,以此类推,直至循环到最后一个关键词,得到一个满足所有关键词的匹配检索的结果的目标物品。
根据本发明的另一个实施例,从全量物品池中查找符合所述匹配检索的结果的目标物品,包括:将所述匹配检索的结果和所述全量物品池中各个物品的属性信息进行文本相似度比对;根据相似度比对的结果进行筛选评分,将所述全量物品池中评分最高的物品作为所述目标物品。
具体地,考虑到全量物品池为平台在售状态的所有物品,而待匹配检索的结果是来自于用户编辑的待识别文本,也就是用户需求,在查找的过程中不可避免会有物品池中没有完全符合匹配检索的结果的目标物品,为了尽量挽留用户,引入置信度的概念。将匹配检索的结果和全量物品池中各个物品的属性信息进行文本相似度比对,根据比对的结果,结合预设的评分标准,例如权重评分标准,对从全量物品池中查找的结果进行打分,将评分最高的物品或者评分分值位于前几位的物品作为目标物品,以便用户可以根据接收到的多个目标物品选择最合适的作为交易物品。
可以理解地,待识别文本提取出的关键词通常为多个,相应地,关键词的匹配检索的结果和全量物品池中各个物品的属性信息的文本相似度比对可以主要从关键词的匹配检索的结果的个体相似度比对和所有关键词的匹配检索的结果的综合相似度比对这两个层面进行比对。
对于个体相似度比对,主要基于各个关键词的匹配检索的结果和物品池中各个对应的属性信息的文本相似度的比对,对于综合相似度比对,主要是明确各个关键词的评分权重,有的关键词相对重要些,那么其权重就会大些,有的关键词对物品的使用影响相对弱些,其权重就会相对小些。首先从全量物品池中选取个体相似度较高的备选物品;再根据预设的各个关键词的权重,计算各个物品的综合评分,选取综合评分最高的目标物品。具体的个体相似度比对,举例如下:对于颜色语义槽位的关键词,其匹配检索的结果是“橙红色”而物品池中物品的颜色属性值有“红色”、“黑色”、“黄色”,那么判定“红色”的个体相似度较高。
当然,也可以设定只有关键词的匹配检索的结果和全量物品池中对应的属性信息完全相同,才认为个体相似度比对通过,再根据各个关键词的个体相似度比对的结果,结合预设的综合评分规则,确定物品池中物品的综合评分。例如满分100分,10个关键词中如果有9个关键词的个体相似度比对通过,也就是有9个关键词的匹配检索的结果和全量物品池中对应的属性信息完全相同,有1个关键词的匹配检索的结果和全量物品池中对应的属性信息不完全相同,且这1个个体相似度不通过的权重为5%,那么综合评分就是95分。
可以理解地,上述的关键词匹配检索,以及需求物品的确定的相关操作可以直接集成在提取关键词的识别模型中,以便在识别模型内部直接根据关键词确定需求物品,提升识别效率,简化系统组成。
根据本发明的再一个实施例,得到所述待识别文本的需求物品之后,所述方法还包括:对所述待识别文本的需求物品,以及语义槽位标记的结果进行核查校验;根据核查校验的结果,更新所述识别模型和所述物品知识词库。
具体地,为了保证物品知识词库的丰富性和全面性,提升识别模型提取关键字和确定需求物品的能力,在得到待识别文本的需求物品之后,核查校验得到的需求物品,以及对待识别文本的语义槽位标记的结果是否正确。具体主要核查提取关键词中的语义槽位的标记是否正确,以及语义槽位与知识词库的关联关系是否正确,因为知识词库与物品属性本来就是对应的,这样就可以沉淀出语义槽位、语义槽位值(关键词)、属性值和属性之间的正确匹配关系;同时也对得到的需求物品以及对应的待识别文本进行校验核对,沉淀出待识别文本和需求物品的正确匹配关系。根据核查校验得到的待识别文本和需求物品的正确匹配关系,以及语义槽位、语义槽位值(关键词)、属性值和属性的正确匹配关系实时更新识别模型和物品知识词库,以进一步优化识别模型和物品知识词库。另外地,如果校验核对出需求物品、语义槽位标记的结果存在错误,则对比错误结果,分析错误原因,并在错误原因与匹配检索相关时,确定需要更新到知识词库的更新词,更新对应的知识词库,以修正匹配检索的结果。
图2是本发明实施例的需求物品的识别方法的整体流程示意图。在识别需求物品之前,需要配置物品需求的文本句式模版,以及对文本句式模版中的组成元素进行语义槽位标记,构建用于训练初始识别模型的训练样本集,得到训练后的识别模型,并建立这些语义槽位和物品知识词库之间的关联对应关系,以便根据语义槽位中的关键词可以确定对应的物品知识词库,还可以将语义槽位的关键词同步更新到对应的物品知识词库。根据接收到的需求物品识别请求,获取待识别文本,将待识别文本输入到识别模型,等待识别模型的输出。本发明实施例将关键词的提取、物品知识词库的匹配检索,以及需求物品的确定均集成在识别模型中。由识别模型标记待识别文本的语义槽位,得到关键词,调用物品知识词库,将提取到的关键词和对应的物品知识词库进行匹配检索,再根据匹配检索的结果,得到并输出待识别文本的需求物品。需求物品识别请求的请求方接收到需求物品,对所述待识别文本的需求物品,以及语义槽位标记的结果进行核查校验,如果核查校验发现错误,交由系统对比错误结果分析错误原因,并在错误原因涉及匹配检索时,确定需要更新到知识词库的更新词,更新对应的知识词库。
通过上述的需求物品的识别方法的整体流程说明可知,本发明实施例在训练样本的构建过程中,以及对识别模型的核查校验过程中,均对物品知识词库进行更新,可以实时积累丰富、有价值的物品知识词库,而且通过上述对分词文本的无效词过滤,引入无效词知识词库,在需求物品的识别过程中持续更新无效词词库,建立了平台完备的物品知识词库运维机制,为关键词的匹配检索提供了高质量的词库。
另外地,根据对需求物品和语义槽位标记的结果的核查校验结果,更新识别模型,可以持续提升识别模型对待识别文本的意图理解能力,以得到准确的需求物品。
图3是根据本发明实施例的需求物品的识别装置的主要模块示意图。如图3所示,需求物品的识别装置300主要包括文本获取模块301、关键词提取模块302和物品获取模块303。
文本获取模块301,用于响应于接收到需求物品识别请求,获取待识别文本;
关键词提取模块302,用于对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词;
物品获取模块303,用于查找所述关键词对应的预设的物品知识词库,将所述关键词和对应的物品知识词库进行匹配检索,根据匹配检索的结果,得到所述待识别文本的需求物品。
根据本发明的一个实施例,所述关键词提取模块302,还用于:将所述待识别文本输入到预先构建的识别模型,由所述识别模型对所述待识别文本进行句式解析、语义槽位标记,以及关键词提取。
根据本发明的另一个实施例,所述需求物品的识别装置300还包括模型训练模块(图中未示出),用于:将所述待识别文本输入到预先构建的识别模型之前,通过配置物品需求的文本句式模版,以及对所述文本句式模版中的组成元素进行语义槽位标记,构建训练样本集;使用所述训练样本集训练初始识别模型,得到识别模型。
根据本发明的再一个实施例,所述需求物品的识别装置300还包括分词模块(图中未示出),用于:对所述待识别文本进行句式解析之前,对所述待识别文本进行分词处理,得到分词文本。
根据本发明的又一个实施例,所述需求物品的识别装置300还包括过滤模块(图中未示出),用于:得到分词文本之后,对所述分词文本进行无效词过滤,得到有效的分词文本,并将过滤掉的无效词加入无效词知识词库。
根据本发明的另一个实施例,所述物品获取模块303,还用于:根据所述关键词所属的语义槽位,从预设的物品知识词库集中查找与所述语义槽位对应的预设的物品知识词库,得到所述关键词对应的预设的物品知识词库。
根据本发明的再一个实施例,所述物品获取模块303,还用于:从全量物品池中查找符合所述匹配检索的结果的目标物品,将所述目标物品作为所述待识别文本的需求物品。
根据本发明的再一个实施例,所述物品获取模块303,还用于:将所述匹配检索的结果和所述全量物品池中各个物品的属性信息进行文本相似度比对;根据相似度比对的结果进行筛选评分,将所述全量物品池中评分最高的物品作为所述目标物品。
根据本发明的又一个实施例,所述需求物品的识别装置300还包括模型词库更新模块(图中未示出),用于:得到所述待识别文本的需求物品之后,对所述待识别文本的需求物品,以及语义槽位标记的结果进行核查校验;根据核查校验的结果,更新所述识别模型和所述物品知识词库。
图4是本发明实施例可以应用于其中的示例性系统架构图。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如需求物品的识别应用等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所进行的需求物品提供支持的后台管理服务器(仅为示例)。后台管理服务器可以响应于接收到需求物品识别请求,获取待识别文本;对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词;查找所述关键词对应的预设的物品知识词库,将所述关键词和对应的物品知识词库进行匹配检索,根据匹配检索的结果,得到所述待识别文本的需求物品等处理,并将处理结果(例如需求物品等--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的需求物品的识别方法一般由服务器405执行,相应地,需求物品的识别装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。图5示出的终端设备或服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是所述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者所述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或所述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者所述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括:文本获取模块、关键词提取模块和物品获取模块。
其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,文本获取模块还可以被描述为“用于响应于接收到需求物品识别请求,获取待识别文本的模块”。
另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是所述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。所述计算机可读介质承载有一个或者多个程序,当所述一个或者多个程序被一个该设备执行时,使得该设备包括:响应于接收到需求物品识别请求,获取待识别文本;对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词;查找所述关键词对应的预设的物品知识词库,将所述关键词和对应的物品知识词库进行匹配检索,根据匹配检索的结果,得到所述待识别文本的需求物品。
根据本发明实施例的技术方案,具有如下优点或有益效果:通过响应于接收到需求物品识别请求,获取待识别文本;对待识别文本进行句式解析和语义槽位标记,提取出待识别文本的关键词;查找关键词对应的预设的物品知识词库,将关键词和对应的物品知识词库进行匹配检索,根据匹配检索的结果,得到待识别文本的需求物品的技术方案,实现了一种自动、准确的需求物品的识别方法,不仅提高了识别的准确率,而且还提升了识别效率,降低了识别成本。
所述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (13)
1.一种需求物品的识别方法,其特征在于,包括:
响应于接收到需求物品识别请求,获取待识别文本;
对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词;
查找所述关键词对应的预设的物品知识词库,将所述关键词和对应的物品知识词库进行匹配检索,根据匹配检索的结果,得到所述待识别文本的需求物品。
2.根据权利要求1所述的方法,其特征在于,对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词,包括:
将所述待识别文本输入到预先构建的识别模型,由所述识别模型对所述待识别文本进行句式解析、语义槽位标记,以及关键词提取。
3.根据权利要求2所述的方法,其特征在于,将所述待识别文本输入到预先构建的识别模型之前,所述方法还包括:
通过配置物品需求的文本句式模版,以及对所述文本句式模版中的组成元素进行语义槽位标记,构建训练样本集;
使用所述训练样本集训练初始识别模型,得到识别模型。
4.根据权利要求1所述的方法,其特征在于,对所述待识别文本进行句式解析之前,所述方法还包括:
对所述待识别文本进行分词处理,得到分词文本。
5.根据权利要求4所述的方法,其特征在于,得到分词文本之后,所述方法还包括:
对所述分词文本进行无效词过滤,得到有效的分词文本,并将过滤掉的无效词加入无效词知识词库。
6.根据权利要求1所述的方法,其特征在于,查找所述关键词对应的预设的物品知识词库,包括:
根据所述关键词所属的语义槽位,从预设的物品知识词库集中查找与所述语义槽位对应的预设的物品知识词库,得到所述关键词对应的预设的物品知识词库。
7.根据权利要求1所述的方法,其特征在于,根据匹配检索的结果,得到所述待识别文本的需求物品,包括:
从全量物品池中查找符合所述匹配检索的结果的目标物品,将所述目标物品作为所述待识别文本的需求物品。
8.根据权利要求7所述的方法,其特征在于,从全量物品池中查找符合所述匹配检索的结果的目标物品,包括:
将所述匹配检索的结果和所述全量物品池中各个物品的属性信息进行文本相似度比对;
根据相似度比对的结果进行筛选评分,将所述全量物品池中评分最高的物品作为所述目标物品。
9.根据权利要求2所述的方法,其特征在于,得到所述待识别文本的需求物品之后,所述方法还包括:
对所述待识别文本的需求物品,以及语义槽位标记的结果进行核查校验;
根据核查校验的结果,更新所述识别模型和所述物品知识词库。
10.一种需求物品的识别装置,其特征在于,包括:
文本获取模块,用于响应于接收到需求物品识别请求,获取待识别文本;
关键词提取模块,用于对所述待识别文本进行句式解析和语义槽位标记,提取出所述待识别文本的关键词;
物品获取模块,用于查找所述关键词对应的预设的物品知识词库,将所述关键词和对应的物品知识词库进行匹配检索,根据匹配检索的结果,得到所述待识别文本的需求物品。
11.一种移动电子设备终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
13.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410269122.4A CN117992576A (zh) | 2024-03-08 | 2024-03-08 | 一种需求物品的识别方法、装置和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410269122.4A CN117992576A (zh) | 2024-03-08 | 2024-03-08 | 一种需求物品的识别方法、装置和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117992576A true CN117992576A (zh) | 2024-05-07 |
Family
ID=90896108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410269122.4A Pending CN117992576A (zh) | 2024-03-08 | 2024-03-08 | 一种需求物品的识别方法、装置和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117992576A (zh) |
-
2024
- 2024-03-08 CN CN202410269122.4A patent/CN117992576A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108089843B (zh) | 一种智能化的银行企业级需求管理系统 | |
US10095780B2 (en) | Automatically mining patterns for rule based data standardization systems | |
US20240028651A1 (en) | System and method for processing documents | |
US20200081899A1 (en) | Automated database schema matching | |
US11741094B2 (en) | Method and system for identifying core product terms | |
CN111046221A (zh) | 歌曲推荐方法、装置、终端设备以及存储介质 | |
CN111651552B (zh) | 结构化信息确定方法、装置和电子设备 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN111553556A (zh) | 业务数据分析方法、装置、计算机设备及存储介质 | |
CN113051362A (zh) | 数据的查询方法、装置和服务器 | |
CN114091426A (zh) | 一种处理数据仓库中字段数据的方法和装置 | |
CN111814481A (zh) | 购物意图识别方法、装置、终端设备及存储介质 | |
CN110795942A (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN114003725A (zh) | 信息标注模型的构建方法以及信息标注的生成方法 | |
CN114117038A (zh) | 一种文档分类方法、装置、系统及电子设备 | |
CN111783424A (zh) | 一种文本分句方法和装置 | |
CN112328738A (zh) | 语音检索方法、终端设备及可读存储介质 | |
CN111126073A (zh) | 语义检索方法和装置 | |
CN116150376A (zh) | 一种样本数据分布优化方法、装置和存储介质 | |
CN115952770A (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
CN115017385A (zh) | 一种物品搜索方法、装置、设备和存储介质 | |
CN111368036B (zh) | 用于搜索信息的方法和装置 | |
CN117992576A (zh) | 一种需求物品的识别方法、装置和程序产品 | |
CN114971833A (zh) | 一种税收信息处理方法及相关设备 | |
CN114443802A (zh) | 一种接口文档处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |