CN116610776A - 车联网智能问答系统 - Google Patents

车联网智能问答系统 Download PDF

Info

Publication number
CN116610776A
CN116610776A CN202211721178.6A CN202211721178A CN116610776A CN 116610776 A CN116610776 A CN 116610776A CN 202211721178 A CN202211721178 A CN 202211721178A CN 116610776 A CN116610776 A CN 116610776A
Authority
CN
China
Prior art keywords
question
data
internet
answering
vehicles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211721178.6A
Other languages
English (en)
Inventor
叶飞
杨柯
张�杰
王俊岭
林娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Moss Zhilian Technology Co ltd
Original Assignee
Moss Zhilian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Moss Zhilian Technology Co ltd filed Critical Moss Zhilian Technology Co ltd
Priority to CN202211721178.6A priority Critical patent/CN116610776A/zh
Publication of CN116610776A publication Critical patent/CN116610776A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种车联网智能问答系统,语料入库时,数据结构化处理模块将车联网常用问答对数据作为开源数据,对其进行结构化处理,进入离线索引处理后,问答语料库基于收集的开源数据集训练深度学习模型,基于训练好网络参数的深度学习模型,结合车联网问答数据,微调神经网络连接权值,采用SimCSE训练模型进一步扩增样本,之后依据问答语料库训练好的深度模型,部署语义向量抽取模块的模型服务;语义向量抽取模块获取问答对数据的语义向量,对语义向量数据建模,形成离线语义索引库。系统通过问答服务模块接收用户请求,对用户请求进行多路召回处理,将查询的向量与召回的向量做相似度计算,向客户发送相似度高的模型答案。

Description

车联网智能问答系统
技术领域
本发明涉及一种智能交互系统,具体涉及一种应用于车联网的智能问答系统。
背景技术
车联网日渐兴起,为了提升车机车联网功能的司乘使用体验,行业内提供了多种问答解决方案,从应用上分类,例如:在陪护领域的广泛使用的闲聊智能问答系统,在陪伴等非生产领域使用,无法用于特定领域,同时,闲聊机器人的对话语料要求广泛,对话语料数量非常巨大;针对特定行业垂直领域的智能问答机器人,例如车机助手、金融问答机器人,指向性非常明确,无法有效泛化到其他行业。从技术上分类,例如:基于字面检索的问答机器人,根据query中字面匹配的重复度,返回相似问答语句,无法实现否定语句的有效召回;基于向量的问答机器人,根据query获取其对应的embedding向量,再通过向量检索相同或相似的问答语句,向量机器人在训练深度模型时对领域的问答语料量要求较大。
目前市面上还没有一款针对车联网领域的智能问答系统,满足该场景需自研方案。
发明内容
本发明目的是提供一款针对车联网领域的智能问答系统,满足车联网场景需求。
为了实现上述目的,本发明提供一种车联网智能问答系统,包括如下模块:数据结构化处理模块、问答语料库、语义向量抽取模块、向量建模、语义索引库,上述模块应用于如下过程:语料入库、离线索引、在线查询,其中,其中,
语料入库时:
数据结构化处理模块对已有的车联网常用问答对数据进行结构化处理,作为语义向量抽取模块的深度学习模型的微调训练数据;
问答语料库是Elasticsearch库,收集数据结构化处理模块处理后的问答对数据形成问答数据集,用于构建离线索引以及关键字查询;
离线索引时:
问答语料库基于收集的开源数据集训练深度学习模型,将车联网常用的问答数据,通过中英互译、模型语义改写实现语料数据增长后,再通过数据结构化模块结构化处理的车联网问答数据微调深度学习模型参数;将微调后的深度学习模型,部署模型服务,作为语义向量抽取模块;
语义向量抽取模块抽取问答语料库中的车联网问答数据,获取车联网问答数据对应的语义向量,将对应的语义向量通过向量建模模块实现稠密向量建模,形成语料库中所有车辆网问答数据的语义索引库;
用户进行在线查询时:
系统通过问答服务模块接收用户查询语句后,对用户查询语句通过Elasticsearch库,实现字检索,检索出字面与用户查询语句相似的句子,形成候选集,候选集通过语义向量抽取模块获取候选集的语义向量;
向量检索模块在用户查询语句的语义索引库中快速查找到与候选集的语义向量相似的语义向量,并进行相似度排序;
向量检索模块选取相似度高的作为模型答案TopN,通过问答服务模块向客户返回模型答案TOPN。
优选的,所述问答数据是中、英文、中英夹杂的问答数据。
更优选,结合车联网问答语料中中英文比例,调整中、英文、中英夹杂的语料比例为80:3:17。该比例与车联网问答语料中,中英文比例接近,是通过该语料训练的模型在车联网语料上的分类效果确定的该比例。虽然车联网问答语料中不包含全英文语料,训练模型的语料中,添加全英文语料有助于大模型的泛化性能。
优选的,所述深度学习模型是Bert深度神经网络语义模型。基于Bert的模型在NLP领域,各项测评任务重均取得了最优效果,所以本文选择Bert作为深度模型。
优选的,语料数据增长至1.5倍。
本发明设计的优势包括以下几点:针对特定的车联网垂直领域,对话语料区别于其他问答机器人。同时,在车联网垂直领域问答语料有限的情况下,通过迁移学习很好实现少样本情况下的embedding向量抽取。
车联网问答系统满足业务需求:问答检索准召率83%,远高于其他领域直接应用在车联网领域的问答机器人;处理流程分层结构清晰,模块耦合度低,稳定性高,灵活性和扩展性强。
附图说明
图1为本发明的一种车联网智能问答系统的整体结构图
图2为本发明的一种车联网智能问答系统的查询逻辑图
图3为本发明的一种车联网智能问答系统的实际展示效果图
具体实施方式
为清楚描述本发明,现结合附图进一步详细说明。
如图1所示的一种车联网智能问答系统,整体结构包括如下模块:数据结构化处理模块、问答语料库、语义向量抽取模块、向量建模、语义索引库,上述模块应用于如下过程:语料入库、离线索引、在线查询。
如图1及图2的车联网智能问答系统的查询逻辑图所示,其中:
语料入库时:
数据结构化处理模块对已有的车联网常用问答对数据进行结构化处理,作为语义向量抽取模块的深度学习模型的微调训练数据;
问答语料库是Elasticsearch库,收集数据结构化处理模块处理后的问答对数据形成问答数据集,用于构建离线索引以及关键字查询。
离线索引时:
问答语料库基于收集的开源数据集训练深度学习模型,将车联网常用的问答数据,通过中英互译、模型语义改写实现语料数据增长后,再通过数据结构化模块结构化处理的车联网问答数据微调深度学习模型参数;将微调后的深度学习模型,部署模型服务,作为语义向量抽取模块;
语义向量抽取模块抽取问答语料库中的车联网问答数据,获取车联网问答数据对应的语义向量,将对应的语义向量通过向量建模模块实现稠密向量建模,形成语料库中所有车辆网问答数据的语义索引库;
用户进行在线查询时:
系统通过问答服务模块接收用户查询语句后,对用户查询语句通过Elasticsearch库,实现字检索,检索出字面与用户查询语句相似的句子,形成候选集,候选集通过语义向量抽取模块获取候选集的语义向量;
语义向量抽取模块获取用户查询语句对应的语义向量,将其通过向量建模模块实现稠密向量建模,形成用户查询语句的语义索引库;
向量检索模块在用户查询语句的语义索引库中快速查找到与候选集的语义向量相似的语义向量,并进行相似度排序;
向量检索模块选取相似度高的作为模型答案TopN,通过问答服务模块向客户返回模型答案TOPN。
本发明的系统,通过问答服务模块接收用户查询语句后,对用户查询语句进行了三路召回:
(1)通过字检索,召回字面相似问答对至候选集;
(2)通过语义向量抽取模块获取用户请求的语义向量,召回答案字面相似问答对数据至候选集;系统将候选集中的相似问答对数据通过查询向量模块获取语义向量发送到向量检索模块;
(3)通过语义向量抽取模块获取用户请求的语义向量,对用户请求的语义向量数据建模,查询离线语义索引库,发送查询结果到向量检索模块;
向量检索模块将:来自候选集的语义向量相似的语义向量,与,在用户查询语句的语义索引库中快速查找到的,进行相似度排序后,选取相似度高的作为模型答案TopN,通过问答服务模块向客户返回模型答案TOPN。
该方式使向客户返回的答案更精确和快速。
如图3所示,为本发明的一种车联网智能问答系统的实际展示效果图。
车联网问题举例如下表:
车联网问答数据量前期较少,不满足深度学习模型训练要求。
由上表可见,车辆网问题中存在专业领域词汇、中英文夹杂、特殊字符等问题。
以“寻车功能出现异常怎么办”为例,语料入库时:
数据结构化处理模块收集“寻车功能出现异常怎么办”作为车联网常用问答对数据,对其进行结构化处理后插入Elasticsearch库。
离线索引处理时:
问答语料库基于收集的开源数据集训练深度学习模型:先将原车联网问答数据,通过人工改写、中英互译、模型语义改写实现语料数据增长,具体做法如下:
人工改写成:寻车异常怎么办?、寻找车辆的功能出现问题怎么办、寻车功能失效怎么办。
中英互译的方式,调用翻译API,将语句翻译成英文:What to do if the carsearch function is abnormal,再将该英文句子经过翻译API,将其翻译成中文:如果汽车寻找功能异常怎么办。
模型语义改写语句可以使用开源的工具(SimBert等),输入原始语句,通过SimBert得到模型的改写结果:
('寻车功能异常怎么办',0.9830989241600037)
('寻车功能异常怎么办?',0.9764386415481567)
('车辆寻车功能异常怎么办',0.972146213054657)
('汽车寻车功能异常怎么办',0.9634849429130554)
('汽车显示寻车功能异常怎么办?',0.9543412923812866)
('寻车功能异常是怎么回事',0.9250564575195312)
('寻车功能出现问题怎么办?',0.8986475467681885)
('寻车功能出现异常是什么意思',0.8868089914321899)。
对上述结果进行筛选,保留有效改写。
结合车联网问答语料中中英文比例,调整中、英文、中英夹杂的语料比例为80:3:17,通过中英互译、模型语义改写实现语料数据增长至1.5倍;之后,基于训练好网络参数的深度学习模型,结合车联网的问答数据,微调神深度学习模型,训练过程中采用SimCSE无监督方法训练模型,进一步扩增样本,存储所有车辆网相关问答对数据,最后,依据问答语料库训练好的深度学习模型,部署语义向量抽取模块的模型服务;
语义向量抽取模块获取问答对数据的语义向量,对语义向量数据建模,形成离线语义索引库。
问答服务模块获取用户查询语句:“寻车功能出现了异常怎么办呢?”
通过语义向量抽取模块,获得用户查询语句的语义向量,本系统中该向量是1x256维的稠密语义向量;
通过Elasticsearch库实现字检索,检索出语料库中与用户查询语句字面相似的句子,作为候选集,比如:“寻车功能异常怎么办”、“小程序功能异常怎么办”、“寻车功能出现error”
将字检索候选集通过语义向量抽取模块,分别获取3个不同1x256维的稠密语义向量;
通过向量检索模块,通过用户查询语句的语义向量,与离线索引查询出语料库中与用户查询语句相似较高的向量,及其对应的句子;用户查询语句的语义向量与候选集语义向量做同样的相似度计算,分别将向量检索与字检索句子相似排序
返回相似较高的topN。

Claims (7)

1.一种车联网智能问答系统,其特征在于,包括如下模块:数据结构化处理模块、问答语料库、语义向量抽取模块、向量建模、语义索引库,上述模块应用于如下过程:语料入库、离线索引、在线查询,其中,
语料入库时:
数据结构化模块对已有的车联网常用的问答对数据进行结构化处理,作为语义向量抽取模块的深度学习模型的微调训练数据;
问答语料库是Elasticsearch库,收集数据结构化处理模块处理后的问答数据形成数据集,用于构建离线索引以及关键字查询;
离线索引时:
问答语料库基于事先采集的网络开源问答数据训练深度学习模型;将车联网常用的问答数据,通过中英互译、模型语义改写实现语料数据增长后,再通过数据结构化模块结构化处理的车联网问答数据微调深度学习模型参数,将微调后的深度学习模型,部署模型服务,作为语义向量抽取模块;
语义向量抽取模块抽取问答语料库中的车联网问答数据,获取车联网问答数据对应的语义向量,将对应的语义向量通过向量建模模块实现稠密向量建模,形成语料库中所有车辆网问答数据的语义索引库;
在线查询时:
系统通过问答服务模块接收用户查询语句后,对用户查询语句通过Elasticsearch库,实现字检索,检索出字面与用户查询语句相似的句子,形成候选集,候选集通过语义向量抽取模块获取候选集的语义向量;
向量检索模块在用户查询语句的语义索引库中快速查找到与候选集的语义向量相似的语义向量,并进行相似度排序;
向量检索模块选取相似度高的作为模型答案TopN,通过问答服务模块向客户返回模型答案TOPN。
2.如权利要求1所述的车联网智能问答系统,其特征在于,还包括:系统用户问题日志,数据结构化模块对审核后的系统用户问题日志数据进行结构化处理。
3.如权利要求1所述的车联网智能问答系统,其特征在于,所述结构化处理包括:将句子中大写统一转化为小写等操作。
4.如权利要求1所述的车联网智能问答系统,其特征在于,所述问答数据是中、英文、中英夹杂的问答数据。
5.如权利要求4所述的车联网智能问答系统,其特征在于,结合车联网问答语料中中英文比例,调整中、英文、中英夹杂的语料比例为80:3:17。
6.如权利要求1所述的车联网智能问答系统,其特征在于,所述深度学习模型是Bert深度神经网络语义模型。
7.如权利要求1所述的车联网智能问答系统,其特征在于,语料数据增长至1.5倍。
CN202211721178.6A 2022-12-30 2022-12-30 车联网智能问答系统 Pending CN116610776A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211721178.6A CN116610776A (zh) 2022-12-30 2022-12-30 车联网智能问答系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211721178.6A CN116610776A (zh) 2022-12-30 2022-12-30 车联网智能问答系统

Publications (1)

Publication Number Publication Date
CN116610776A true CN116610776A (zh) 2023-08-18

Family

ID=87684157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211721178.6A Pending CN116610776A (zh) 2022-12-30 2022-12-30 车联网智能问答系统

Country Status (1)

Country Link
CN (1) CN116610776A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299478A (zh) * 2018-12-05 2019-02-01 长春理工大学 基于双向长短期记忆神经网络的智能自动问答方法及系统
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110727769A (zh) * 2018-06-29 2020-01-24 优视科技(中国)有限公司 语料库生成方法及装置、人机交互处理方法及装置
CN111324696A (zh) * 2020-02-19 2020-06-23 腾讯科技(深圳)有限公司 实体抽取方法、实体抽取模型的训练方法、装置及设备
CN111666385A (zh) * 2019-03-07 2020-09-15 南京邮电大学 一种基于深度学习的客服问答系统及实现方法
CN112667794A (zh) * 2020-12-31 2021-04-16 民生科技有限责任公司 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN113282711A (zh) * 2021-06-03 2021-08-20 中国软件评测中心(工业和信息化部软件与集成电路促进中心) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN113806487A (zh) * 2021-09-23 2021-12-17 平安科技(深圳)有限公司 基于神经网络的语义搜索方法、装置、设备和存储介质
CN114416927A (zh) * 2022-01-24 2022-04-29 招商银行股份有限公司 智能问答方法、装置、设备及存储介质
CN114416942A (zh) * 2021-12-29 2022-04-29 南京视察者智能科技有限公司 一种基于深度学习的自动化问答方法
US20220343082A1 (en) * 2019-09-09 2022-10-27 Saltlux Inc. System and method for ensemble question answering

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727769A (zh) * 2018-06-29 2020-01-24 优视科技(中国)有限公司 语料库生成方法及装置、人机交互处理方法及装置
CN109299478A (zh) * 2018-12-05 2019-02-01 长春理工大学 基于双向长短期记忆神经网络的智能自动问答方法及系统
CN111666385A (zh) * 2019-03-07 2020-09-15 南京邮电大学 一种基于深度学习的客服问答系统及实现方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
US20220343082A1 (en) * 2019-09-09 2022-10-27 Saltlux Inc. System and method for ensemble question answering
CN111324696A (zh) * 2020-02-19 2020-06-23 腾讯科技(深圳)有限公司 实体抽取方法、实体抽取模型的训练方法、装置及设备
CN112667794A (zh) * 2020-12-31 2021-04-16 民生科技有限责任公司 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN113282711A (zh) * 2021-06-03 2021-08-20 中国软件评测中心(工业和信息化部软件与集成电路促进中心) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN113806487A (zh) * 2021-09-23 2021-12-17 平安科技(深圳)有限公司 基于神经网络的语义搜索方法、装置、设备和存储介质
CN114416942A (zh) * 2021-12-29 2022-04-29 南京视察者智能科技有限公司 一种基于深度学习的自动化问答方法
CN114416927A (zh) * 2022-01-24 2022-04-29 招商银行股份有限公司 智能问答方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110826336B (zh) 一种情感分类方法、系统、存储介质及设备
CN109101479B (zh) 一种用于中文语句的聚类方法及装置
US8024329B1 (en) Using inverted indexes for contextual personalized information retrieval
US6477524B1 (en) Method for statistical text analysis
CN105045875B (zh) 个性化信息检索方法及装置
US20050177805A1 (en) Methods and apparatuses to generate links from content in an active window
US20080016050A1 (en) System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
EP1597682A2 (en) Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
CN109325229A (zh) 一种利用语义信息计算文本相似度的方法
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN112818889B (zh) 基于动态注意力的超网络融合视觉问答答案准确性的方法
CN105912524A (zh) 基于低秩矩阵分解的文章话题关键词提取方法和装置
Zhou et al. Statistical machine translation improves question retrieval in community question answering via matrix factorization
CN115618113A (zh) 一种基于知识图谱表示学习的搜索召回方法和系统
CN103559192A (zh) 一种基于跨模态稀疏主题建模的跨媒体检索方法
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN112528653B (zh) 短文本实体识别方法和系统
AL-Khassawneh et al. Improving triangle-graph based text summarization using hybrid similarity function
CN116610776A (zh) 车联网智能问答系统
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Christopoulou et al. Mixture of topic-based distributional semantic and affective models
Hoshiai et al. A Semantic Category Matching Approach to Ontology Alignment.
Kuhr et al. Context-specific adaptation of subjective content descriptions
Pathak et al. Information retrieval from heterogeneous data sets using moderated IDF-cosine similarity in vector space model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination