CN111666425B - 基于语义知识的汽配件搜索方法 - Google Patents

基于语义知识的汽配件搜索方法 Download PDF

Info

Publication number
CN111666425B
CN111666425B CN202010521188.XA CN202010521188A CN111666425B CN 111666425 B CN111666425 B CN 111666425B CN 202010521188 A CN202010521188 A CN 202010521188A CN 111666425 B CN111666425 B CN 111666425B
Authority
CN
China
Prior art keywords
data
accessory
user
matching
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010521188.XA
Other languages
English (en)
Other versions
CN111666425A (zh
Inventor
杨上富
刘松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Casstime Technology Co ltd
Original Assignee
Shenzhen Casstime Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Casstime Technology Co ltd filed Critical Shenzhen Casstime Technology Co ltd
Priority to CN202010521188.XA priority Critical patent/CN111666425B/zh
Publication of CN111666425A publication Critical patent/CN111666425A/zh
Application granted granted Critical
Publication of CN111666425B publication Critical patent/CN111666425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于语义知识的汽配件搜索方法,包括:在建立好配件数据库的基础上,进行历史人工译码数据标注、制作模型训练数据;使用清洗后的样本作为训练数据,构建知识图谱和匹配模型;根据用户输入的关键词通过知识图谱的匹配,关连出相对应的别名,再利用扩展出的别名列表从车型配件全表中做匹配,排出相关性最高的配件;最后,输出零件名称,以及数据库中其他相关信息。本发明通过知识图谱以及匹配模型学习配件的口语化、多样化的用户输入,可减少人工译码的干预,提升效率节省成本,并且优化交易平台用户体验。

Description

基于语义知识的汽配件搜索方法
技术领域
本发明涉及语义理解与匹配领域,特别是指一种基于语义知识的汽配件搜索方法。
背景技术
随着互联网时代的发展和大数据时代的到来,人们逐渐从信息匮乏的时代走入了信息过载的时代。电子商务平台即是一个为企业或个人提供网上交易洽谈的平台。企业电子商务平台是建立在互联网上进行商务活动的虚拟网络空间和保障商务顺利运营的管理环境;是协调、整合信息流、货物流、资金流有序、关联、高效流动的重要场所。企业、商家可充分利用电子商务平台提供的网络基础设施、支付平台、安全平台、管理平台等共享资源有效地、低成本地开展自己的商业活动。电子商务交易平台的使用过程中,涉及到大量的数据,为了让用户从海量信息中高效地获取自己所需的信,搜索算法必不可少。而用户体验很大程度取决于搜索系统对查询需求理解的精准度,和响应速度。
目前的技术难点之一在于精准理解用户的输入需求,大量数据下精准的找到关联度最高的结果。用户输入通常口语化,多样化,如何去理解用户的意图,以及输入文字和目标实体的关联是目前首要解决的问题。
有鉴于此,本发明对上述问题未臻完善所导致的诸多缺失及不便,而深入构思,且积极研究改良试做而开发设计出本发明。
发明内容
本发明提供了一种基于语义知识的汽配件搜索方法,以解决至少一个上述技术问题。
为解决上述问题,作为本发明的一个方面,提供了一种基于语义知识的汽配件搜索方法,包括:
步骤1,数据获取与标注
在建立好配件数据库的基础上,进行历史人工译码数据标注、制作模型训练数据;
在平台上,用户以原有的手动译码流程完成的查询记录作为数据的标注,用作后阶段监督学习的训练样本;
步骤2,构建离线模型
使用步骤1中清洗后的样本作为训练数据,构建知识图谱和匹配模型,然后构建文本特征并训练端到端模型;其中,知识图谱的构建通过对历史译码数据的分析,建立别名知识图谱,将同个配件的所有相关别名关联,根据出现频率进行排序;匹配模型是利用制作好的训练数据,通过规则按比例生成正负样本进行数据增强;
步骤3,AI译码线上服务
线上使用中,用户输入车辆识别代号以精准定位具体品牌和车型、并且提供零件名称,从而通过车辆识别代号召回指定车型的所有零件;根据用户输入的关键词通过知识图谱的匹配,关联出相对应的别名,再利用扩展出的别名列表从车型配件全表中做匹配,排出相关性最高的配件;最后,输出零件名称,以及数据库中其他相关信息。
优选地,训练数据通过获取用户输入名称和零件名称的样本并进行数据清洗后得到。
优选地,配件数据库是模型在输出时检索的数据库、用于对现有的零件的数据库进行相关度排序以找到用户希望搜索到的零件信息,配件数据库中的配件数据有特定的零件ID号、按照车辆识别代号归类。
优选地,手动译码流程就是用户输入零件名称之后,译码员人工理解用户输入文本,并且在必要的时候通过电话咨询用户的具体意思,来消除可能的歧义。
由于采用了上述技术方案,本发明通过获取供应商配件数据、用户搜索历史译码数据进行训练,通过知识图谱以及匹配模型学习配件的口语化、多样化的用户输入,并增强平台对查询语句的语义理解,从而可减少人工译码的干预,提升效率节省成本,并且优化交易平台用户体验。本发明通过对历史数据的分析与统计,保证了配件的多种别名被纳入知识图谱,避免同一零件的不同名称搜索返回不相同的结果。
具体实施方式
以下对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
本发明提供了一种语义知识的汽配件搜索方法,包括以下步骤:
步骤1、数据获取与标注在建立好配件数据库的基础上,进行历史人工译码数据标注、制作模型训练数据。训练数据通过获取用户输入名称和零件名称(人工译码结果)的样本并进行数据清洗后得到,目的是让模型学习到输入和输出之间的关系。配件数据库是模型在输出时检索的数据库,对现有的零件的数据库进行相关度排序找到用户希望搜索到的零件信息,配件数据有特定的零件ID号,按照车辆识别代号归类。
在平台上,用户以原有的手动译码流程完成的查询记录作为数据的标注,手动译码流程就是用户输入零件名称之后,译码员人工理解用户输入文本,并且在必要的时候通过电话咨询用户的具体意思,来消除可能的歧义,手动译码流程非常缓慢并且繁琐。这些标注数据可以作为后阶段监督学习的训练样本。
步骤2、构建离线模型
使用步骤1中清洗后的样本作为训练数据,构建知识图谱和匹配模型。知识图谱的构建通过对历史译码数据(人工译码的结果)的分析,建立别名知识图谱,将同个配件的所有相关别名关联,根据出现频率进行排序,作用是针对用户输入的名称通过知识图谱可以快速找到相应的实体与别名。匹配模型则利用制作好的训练数据,通过规则按比例生成正负样本进行数据增强,随后,构建文本特征并训练端到端模型。
步骤3、AI译码线上服务
线上使用中,用户输入车辆识别代号用于精准定位具体品牌和车型,并且提供零件名称,随后通过车辆识别代号召回指定车型的所有零件。根据用户输入的关键词通过知识图谱的匹配,关连出相对应的别名,例如变速箱->波箱。再利用扩展出的别名列表从车型配件全表中做匹配,排出相关性最高的配件。最后,输出零件名称,以及数据库中其他相关信息。
通过上述算法,维修厂在寻找配件时可以快速精准地找到所需要的配件,电子商务平台无需人工介入译码流程,节省成本提高效率。机器学习模型学习配件别名后,可以根据别名统计来准确译码口语输入,减少错误返回结果,大幅提高用户体验。
由于采用了上述技术方案,本发明通过获取供应商配件数据、用户搜索历史译码数据进行训练,通过知识图谱以及匹配模型学习配件的口语化、多样化的用户输入,并增强平台对查询语句的语义理解,从而可减少人工译码的干预,提升效率节省成本,并且优化交易平台用户体验。本发明通过对历史数据的分析与统计,保证了配件的多种别名被纳入知识图谱,避免同一零件的不同名称搜索返回不相同的结果。
机器学习模型的特征包括文本匹配特征、文本距离、知识表示学习以及方位词识别。同时涉及多种模型:BERT、XLNet、LGB、DSSM、TransE等等,构建多维度特征,提升语义知识理解,有效提高用户体验以及平台使用效率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于语义知识的汽配件搜索方法,其特征在于,包括:
步骤1,数据获取与标注
在建立好配件数据库的基础上,进行历史人工译码数据标注、制作模型训练数据;
在平台上,用户以原有的手动译码流程完成的查询记录作为数据的标注,用作后阶段监督学习的训练样本;
步骤2,构建离线模型
使用步骤1中清洗后的样本作为训练数据,构建知识图谱和匹配模型,然后构建文本特征并训练端到端模型;其中,知识图谱的构建通过对历史译码数据的分析,建立别名知识图谱,将同个配件的所有相关别名关联,根据出现频率进行排序;匹配模型是利用制作好的训练数据,通过规则按比例生成正负样本进行数据增强;
步骤3,AI译码线上服务
线上使用中,用户输入车辆识别代号以精准定位具体品牌和车型、并且提供零件名称,从而通过车辆识别代号召回指定车型的所有零件;根据用户输入的关键词通过知识图谱的匹配,关连出相对应的别名,再利用扩展出的别名列表从车型配件全表中做匹配,排出相关性最高的配件;最后,输出零件名称,以及数据库中其他相关信息。
2.根据权利要求1所述的基于语义知识的汽配件搜索方法,其特征在于,训练数据通过获取用户输入名称和零件名称的样本并进行数据清洗后得到。
3.根据权利要求1所述的基于语义知识的汽配件搜索方法,其特征在于,配件数据库是模型在输出时检索的数据库、用于对现有的零件的数据库进行相关度排序以找到用户希望搜索到的零件信息,配件数据库中的配件数据有特定的零件ID号、按照车辆识别代号归类。
4.根据权利要求1所述的基于语义知识的汽配件搜索方法,其特征在于,手动译码流程就是用户输入零件名称之后,译码员人工理解用户输入文本,并且在必要的时候通过电话咨询用户的具体意思,来消除可能的歧义。
CN202010521188.XA 2020-06-10 2020-06-10 基于语义知识的汽配件搜索方法 Active CN111666425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010521188.XA CN111666425B (zh) 2020-06-10 2020-06-10 基于语义知识的汽配件搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010521188.XA CN111666425B (zh) 2020-06-10 2020-06-10 基于语义知识的汽配件搜索方法

Publications (2)

Publication Number Publication Date
CN111666425A CN111666425A (zh) 2020-09-15
CN111666425B true CN111666425B (zh) 2023-04-18

Family

ID=72386524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010521188.XA Active CN111666425B (zh) 2020-06-10 2020-06-10 基于语义知识的汽配件搜索方法

Country Status (1)

Country Link
CN (1) CN111666425B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307048B (zh) * 2020-10-30 2023-12-05 中国平安财产保险股份有限公司 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN112612815B (zh) * 2020-12-29 2024-04-19 鲁班(北京)电子商务科技有限公司 一种对评标文件进行定位的方法、装置及电子设备
CN112836013A (zh) * 2021-01-29 2021-05-25 北京大米科技有限公司 一种数据标注的方法、装置、可读存储介质和电子设备
CN115935608A (zh) * 2022-11-10 2023-04-07 北京能科瑞元数字技术有限公司 一种基于模型的设备预装配选配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN109145153A (zh) * 2018-07-02 2019-01-04 北京奇艺世纪科技有限公司 意图类别的识别方法和装置
CN109885660A (zh) * 2019-02-22 2019-06-14 上海乐言信息科技有限公司 一种知识图谱赋能的基于信息检索的问答系统和方法
CN110147436A (zh) * 2019-03-18 2019-08-20 清华大学 一种基于教育知识图谱与文本的混合自动问答方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN109145153A (zh) * 2018-07-02 2019-01-04 北京奇艺世纪科技有限公司 意图类别的识别方法和装置
CN109885660A (zh) * 2019-02-22 2019-06-14 上海乐言信息科技有限公司 一种知识图谱赋能的基于信息检索的问答系统和方法
CN110147436A (zh) * 2019-03-18 2019-08-20 清华大学 一种基于教育知识图谱与文本的混合自动问答方法

Also Published As

Publication number Publication date
CN111666425A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111666425B (zh) 基于语义知识的汽配件搜索方法
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN110866093A (zh) 机器问答方法及装置
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN111274267A (zh) 一种数据库查询方法、装置及计算机可读取存储介质
TWI743623B (zh) 基於人工智慧的商務智慧系統及其分析方法
CN113254507B (zh) 一种数据资产目录智能构建盘点方法
CN111159381B (zh) 数据搜索方法及装置
CN112328910A (zh) 一种涵盖aoi和poi标准地址匹配引擎的方法及系统
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法
CN116541578A (zh) 资产数字化多维度管理方法及系统
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
CN116108141A (zh) 一种面试场景下的相似问句检索机制
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN111723165A (zh) 地址兴趣点确定方法、装置及系统
CN110837735B (zh) 一种数据智能分析识别方法及系统
CN112905747A (zh) 一种基于语义分析技术的专业制度档案问答机器人系统
CN115438142B (zh) 一种对话式交互数据分析报告系统
CN111859055A (zh) 一种基于大数据的数据智能检索匹配系统
CN114329162A (zh) 搜索方法、装置、电子设备及存储介质
CN117743580A (zh) 一种基于文本检索与prompt的公司行业对齐方法及系统
CN113420130A (zh) 一种基于政务问答系统的意图识别算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant