CN113449091A - 一种基于汽车领域标签的智能问答方法、装置、终端及计算机可读存储介质 - Google Patents
一种基于汽车领域标签的智能问答方法、装置、终端及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113449091A CN113449091A CN202110732612.XA CN202110732612A CN113449091A CN 113449091 A CN113449091 A CN 113449091A CN 202110732612 A CN202110732612 A CN 202110732612A CN 113449091 A CN113449091 A CN 113449091A
- Authority
- CN
- China
- Prior art keywords
- question
- automobile
- similarity
- library
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 239000002184 metal Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000001050 lubricating effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于汽车领域标签的智能问答方法、装置、终端及计算机可读存储介质,该方法具体步骤包括:获取问题咨询信息;通过NLU提取问题咨询信息的核心词汇,NLU引入有汽车分词模型,汽车分词模型基于标签库及同义词库训练而成;汽车分词模型生成各个核心词汇的词向量,根据各个核心词汇的词向量生成第一句向量;确定第一句向量与引入有标签库及同义词库的知识库中的每个问题条目所对应的第二句向量的相似度,其中,问题条目包括问题及与问题相对应的答案;根据相似度获取与问题咨询信息相对应的目标问题条目。本发明使智能机器人能准确、快速识别用户的意图,并对用户意图做出合适的回答。
Description
技术领域
本发明涉及人工智能自然语言处理技术领域,具体涉及智能问答方法。
背景技术
随着车联网技术不断发展,搭载车辆网服务的智能网联汽车越来越受到人们的青睐,同时越来越多的用车服务都开始交由智能机器人解决,但目前在自然语言处理领域,特别是针对跨行业领域的专业术语和专有名词存在歧义问题和未登陆词问题难以分词准确、正确识别和理解,导致汽车车主在和智能机器人交流过程中,机器人存在问题识别率低和回复准确率低的问题,不能真正帮助车主解答用车问题。
发明内容
本发明的目的是提供一种基于汽车领域标签的智能问答方法、装置、终端、计算机可读存储介质,解决的技术问题:汽车领域(单品牌)的汽车专业术语和专有名词分词不准确、词向量无法计算及语义理解错误,导致智能机器人无法解答用车问题。
为了解决上述技术问题,本发明采用以下技术方案:一种基于汽车领域标签的智能问答方法,包括以下步骤:
步骤A:获取问题咨询信息;
步骤B:通过NLU提取所述问题咨询信息的核心词汇,所述NLU引入有汽车分词模型,所述汽车分词模型基于标签库及同义词库训练而成,所述标签库为整车各领域的汽车专业术语和专有名词的名称库,所述同义词库为与所述标签库中的汽车专业术语和专有名词相似称谓的名称库,所述汽车分词模型对所述问题咨询信息进行分词处理得到核心词汇。
步骤C:所述汽车分词模型生成各个所述核心词汇的词向量,根据各个所述核心词汇的词向量生成第一句向量;
步骤D:确定所述第一句向量与引入有所述标签库及同义词库的知识库中的每个问题条目所对应的第二句向量的相似度,其中,问题条目包括问题及与所述问题相对应的答案;
步骤E:根据所述相似度获取与所述问题咨询信息相对应的目标问题条目;
步骤F:发送所述目标问题条目的答案。
优选地,
所述汽车专业术语和专有名词的名称包括整车零部件、智能网联功能及服务名称。
优选地,
所述汽车分词模型基于结巴分词原理生成,生成具体步骤包括:
首先,基于所述标签库及同义词库构造前缀词典,生成有向无环图;
其次,计算最大概率路径;
最后,采用HMM模型进行分词。
优选地,
采用所述HMM模型对没有出现在所述标签库及同义词库中的词汇进行分词,通过word2vec生成该没有出现的词汇的词向量。
优选地,
在所述步骤D和步骤E中,通过cosine确定所述相似度,所述相似度大于90%时,取相似度最高的问题条目为目标问题条目;所述相似度在60%至90%之间时,取相似度最高的TOP5问题条目作为推荐的目标问题条目;所述相似度在60%以下时,无目标问题条目。
本发明还提供一种基于汽车领域标签的智能问答装置,包括:
获取模块,用于获取问题咨询信息;
提取模块,用于提取所述问题咨询信息的核心词汇;
比对模块,用于对比根据各个所述核心词汇的词向量生成的第一句向量与知识库中的每个问题条目所对应的第二句向量的相似度,以根据所述相似度确定与所述问题咨询信息相对应的目标问题条目;
发送模块,用于发送目标问题条目的答案。
本发明还提供一种终端,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的基于汽车领域标签的智能问答方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储计算机程序,所述计算机程序由处理器加载并执行以实现如上述的基于汽车领域标签的智能问答方法。
通过采用上述技术方案,本发明可以达到的有益技术效果陈述如下:本发明预设基于汽车领域的标签库和同义词库,使得分词模型能准确的对用户的问题咨询信息进行准确分词,同时使得NLU更加准确的理解用户的咨询信息。另外基于标签库和同义词库的汽车分词模型有助于生成每个专有名词的词向量,为后续的句向量计算做计算基础。本发明使智能机器人能准确、快速识别用户的意图,并对用户意图做出合适的回答。
附图说明
图1为本发明的流程图;
图2为word2vec模型图;
图3为标签库结构图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明提供一种基于汽车领域标签的智能问答方法,主要解决汽车领域(尤其是单品牌)的汽车专业术语和专有名词分词不准确、词向量无法计算、语义理解错误的问题,适用于汽车领域各用车场景下的智能问答AI机器人,能显著提高问题识别率和回复的准确率。
一种基于汽车领域标签的智能问答方法,包括以下步骤:
步骤A:获取问题咨询信息;
步骤B:通过NLU提取问题咨询信息的核心词汇,NLU引入有汽车分词模型,汽车分词模型基于标签库及同义词库训练而成,标签库为整车各领域的汽车专业术语和专有名词的名称库,同义词库为与标签库中的汽车专业术语和专有名词相似称谓的名称库,汽车分词模型对问题咨询信息进行分词处理得到核心词汇。如图3所示,如电器大类包括电源系统、点火系统、起动系统、照明系统、仪表及辅助电气;底盘大类包括传动系、行驶系、转向系、制动系;动力大类包括曲柄连杆机构、配气机构、点火系统、燃油供给系统、冷却系统、润滑系统、启动系统;车身大类包括车身部件、车身造型、车身附件及车身外部装饰件、车身内部装饰件及车身分类。
步骤C:汽车分词模型生成各个核心词汇的词向量,根据各个核心词汇的词向量生成第一句向量;
步骤D:确定第一句向量与引入有标签库及同义词库的知识库中的每个问题条目所对应的第二句向量的相似度,其中,问题条目包括问题及与问题相对应的答案;
步骤E:根据相似度获取与问题咨询信息相对应的目标问题条目;
步骤F:发送目标问题条目的答案。
可选地,汽车专业术语和专有名词的名称包括整车零部件、智能网联功能及服务名称。
可选地,汽车分词模型基于结巴分词原理生成,生成具体步骤包括:
首先,基于标签库及同义词库构造前缀词典,生成有向无环图;
其次,计算最大概率路径;
最后,采用HMM模型进行分词。
可选地,采用HMM模型对没有出现在标签库及同义词库中的词汇进行分词,通过word2vec生成该没有出现的词汇的词向量。
可选地,在步骤D和步骤E中,通过cosine确定相似度,相似度大于90%时,取相似度最高的问题条目为目标问题条目;相似度在60%至90%之间时,取相似度最高的TOP5问题条目作为推荐的目标问题条目;相似度在60%以下时,无目标问题条目。
本发明还提供一种基于汽车领域标签的智能问答装置,包括:
获取模块,用于获取问题咨询信息;
提取模块,用于提取问题咨询信息的核心词汇;
比对模块,用于对比根据各个核心词汇的词向量生成的第一句向量与知识库中的每个问题条目所对应的第二句向量的相似度,以根据相似度确定与问题咨询信息相对应的目标问题条目;
发送模块,用于发送目标问题条目的答案。
本发明还提供一种终端,包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的基于汽车领域标签的智能问答方法。
本发明还提供一种计算机可读存储介质,计算机可读存储介质中存储计算机程序,计算机程序由处理器加载并执行以实现如上述的基于汽车领域标签的智能问答方法。
下面结合图1更加清楚、明白的说明本发明的技术方案,本发明从整体的角度看分为建立标签库、建立同义词库、建立汽车分词模型、建立汽车行业自然语言处理引擎、获取知识库中的每条问题条目的句向量、根据相似度确定目标问题条目。
第一、建立标签库。根据整车结构建立整车各领域专业术语及专有名词标签库,标签库涉及整车零部件、智能网联功能和服务等名称(中英文及英文缩写)。
第二、建议同义词库。同义词库指标签库中汽车专业术语及专有名词的相似称谓的名称库,每个领域的标签建立对应的同义词,同义词与标签形成多对一的对应关系,便于后续提高分词模型分词的准确性及自然语言处理引擎(NLU)的理解能力。
第三、建立汽车分词模型。分词模型基于结巴分词原理生成,首先基于标签库和同义词库构造前缀词典,生成有向无环图(DAG),再计算最大概率路径,最后对没有出现在标签库和同义词库的词汇采用HMM模型进行分词。如图2所示,分词完成后,利用word2vec生成新词的词向量。
第四、建立关于汽车行业的自然语言处理引擎。通过语料(问题咨询信息)获取并利用结巴分词做预处理,把预处理好的问题咨询信息存储在与问题咨询信息同一个文件路径下,然后训练MITIE模型,再构件rasa_nlu语料和模型,并搭建本体rasa_nlu服务,最后再搭建一个rasaUI界面。可通过界面添加数据,训练模型以及监控服务,通过自然语言处理引擎(汽车行业)可以准确、快速地提取用户问话的核心词汇。
第五、利用短文本短语提取办法将机器人知识库中的每条问题条目涉及的标签库和同义词库中的词汇提取出来,并形成问题条目和标签短语的一对多的对应关系,并利用doc2vec计算出知识库中所有问题条目的句向量。
第六,利用cosine相似度计算方法对比问题咨询信息和知识库中的所有问题条目的句向量的相似度,并按问题条目相似度从高到低排序,cosine相似度大于90%时,取相似度最高的问题条目作为目标问题条目输出;cosine相似度在60%至90%之间,取相似度最高的TOP5问题条目,作为推荐目标问题条目输出,供用户选择;cosine相似度在60%以下时,无目标问题条目输出。
通过以上六步实现基于汽车领域标签的智能问答算法,可准确、快速识别用户的意图,并对用户意图做出合适的回答,解决汽车领域专业术语、新词无法正确分词以及名词存在大量歧义的问题,导致切分句子出错的问题。
本发明的优点:本发明预设基于汽车领域的标签库和同义词库,使得分词模型能准确的对用户的问题咨询信息进行准确分词,同时使得NLU更加准确的理解用户的咨询信息。另外基于标签库和同义词库的汽车分词模型有助于生成每个专有名词的词向量,为后续的句向量计算做计算基础。本发明使智能机器人能准确、快速识别用户的意图,并对用户意图做出合适的回答。
Claims (8)
1.一种基于汽车领域标签的智能问答方法,其特征在于,包括以下步骤:
步骤A:获取问题咨询信息;
步骤B:通过NLU提取所述问题咨询信息的核心词汇,所述NLU引入有汽车分词模型,所述汽车分词模型基于标签库及同义词库训练而成,所述标签库为整车各领域的汽车专业术语和专有名词的名称库,所述同义词库为与所述标签库中的汽车专业术语和专有名词相似称谓的名称库,所述汽车分词模型对所述问题咨询信息进行分词处理得到核心词汇;
步骤C:所述汽车分词模型生成各个所述核心词汇的词向量,根据各个所述核心词汇的词向量生成第一句向量;
步骤D:确定所述第一句向量与引入有所述标签库及同义词库的知识库中的每个问题条目所对应的第二句向量的相似度,其中,问题条目包括问题及与所述问题相对应的答案;
步骤E:根据所述相似度获取与所述问题咨询信息相对应的目标问题条目;
步骤F:发送所述目标问题条目的答案。
2.根据权利要求1所述的基于汽车领域标签的智能问答方法,其特征在于,
所述汽车专业术语和专有名词的名称包括整车零部件、智能网联功能及服务名称。
3.根据权利要求1所述的基于汽车领域标签的智能问答方法,其特征在于,
所述汽车分词模型基于结巴分词原理生成,生成具体步骤包括:
首先,基于所述标签库及同义词库构造前缀词典,生成有向无环图;
其次,计算最大概率路径;
最后,采用HMM模型进行分词。
4.根据权利要求3所述的基于汽车领域标签的智能问答方法,其特征在于,
采用所述HMM模型对没有出现在所述标签库及同义词库中的词汇进行分词,通过word2vec生成该没有出现的词汇的词向量。
5.根据权利要求1所述的基于汽车领域标签的智能问答方法,其特征在于,
在所述步骤D和步骤E中,通过cosine确定所述相似度,所述相似度大于90%时,取相似度最高的问题条目为目标问题条目;所述相似度在60%至90%之间时,取相似度最高的TOP5问题条目作为推荐的目标问题条目;所述相似度在60%以下时,无目标问题条目。
6.一种基于汽车领域标签的智能问答装置,其特征在于,包括:
获取模块,用于获取问题咨询信息;
提取模块,用于提取所述问题咨询信息的核心词汇;
比对模块,用于对比根据各个所述核心词汇的词向量生成的第一句向量与知识库中的每个问题条目所对应的第二句向量的相似度,以根据所述相似度确定与所述问题咨询信息相对应的目标问题条目;
发送模块,用于发送目标问题条目的答案。
7.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行权利要求1至5中任一项所述的基于汽车领域标签的智能问答方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至5任一项所述的基于汽车领域标签的智能问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110732612.XA CN113449091A (zh) | 2021-06-29 | 2021-06-29 | 一种基于汽车领域标签的智能问答方法、装置、终端及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110732612.XA CN113449091A (zh) | 2021-06-29 | 2021-06-29 | 一种基于汽车领域标签的智能问答方法、装置、终端及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113449091A true CN113449091A (zh) | 2021-09-28 |
Family
ID=77814284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110732612.XA Pending CN113449091A (zh) | 2021-06-29 | 2021-06-29 | 一种基于汽车领域标签的智能问答方法、装置、终端及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449091A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385780A (zh) * | 2021-11-30 | 2022-04-22 | 北京凯睿数加科技有限公司 | 程序接口信息推荐方法、装置、电子设备和可读介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033156A (zh) * | 2018-06-13 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及终端 |
CN112347339A (zh) * | 2020-11-26 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理方法及装置 |
-
2021
- 2021-06-29 CN CN202110732612.XA patent/CN113449091A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033156A (zh) * | 2018-06-13 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及终端 |
CN112347339A (zh) * | 2020-11-26 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385780A (zh) * | 2021-11-30 | 2022-04-22 | 北京凯睿数加科技有限公司 | 程序接口信息推荐方法、装置、电子设备和可读介质 |
CN114385780B (zh) * | 2021-11-30 | 2022-08-30 | 南京数睿数据科技有限公司 | 程序接口信息推荐方法、装置、电子设备和可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914568B (zh) | 文本修辞句的生成方法、装置、设备及可读存储介质 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
CN112100349A (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
CN110309277B (zh) | 人机对话语义解析方法和系统、车载人机对话方法和系统、控制器及存储介质 | |
CN111522910A (zh) | 一种基于文物知识图谱的智能语义检索方法 | |
CN112699679B (zh) | 情绪识别方法、装置、电子设备及存储介质 | |
CN111062217A (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN113326702B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN115292461B (zh) | 基于语音识别的人机交互学习方法及系统 | |
CN110019749B (zh) | 生成vqa训练数据的方法、装置、设备和计算机可读介质 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN113449091A (zh) | 一种基于汽车领域标签的智能问答方法、装置、终端及计算机可读存储介质 | |
CN109857843B (zh) | 基于文档的交互方法及系统 | |
CN117454898A (zh) | 一种根据输入文本实现法人实体标准化输出的方法及装置 | |
CN107562907B (zh) | 一种智能律师专家案件应答装置 | |
CN114020886A (zh) | 语音意图识别方法、装置、设备及存储介质 | |
CN114333768A (zh) | 语音检测方法、装置、设备和存储介质 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN116186219A (zh) | 一种人机对话交互方法方法、系统及存储介质 | |
CN107609096B (zh) | 一种智能律师专家应答方法 | |
CN115689603A (zh) | 用户反馈信息收集方法、装置及用户反馈系统 | |
CN114974310A (zh) | 基于人工智能的情感识别方法、装置、计算机设备及介质 | |
CN114676219A (zh) | 基于人工智能的问题反馈方法、系统及可读存储介质 | |
CN114611529A (zh) | 意图识别方法和装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210928 |
|
RJ01 | Rejection of invention patent application after publication |