CN112329428A - 文本相似度最佳阈值自动寻找及优化方法及装置 - Google Patents
文本相似度最佳阈值自动寻找及优化方法及装置 Download PDFInfo
- Publication number
- CN112329428A CN112329428A CN202011374448.1A CN202011374448A CN112329428A CN 112329428 A CN112329428 A CN 112329428A CN 202011374448 A CN202011374448 A CN 202011374448A CN 112329428 A CN112329428 A CN 112329428A
- Authority
- CN
- China
- Prior art keywords
- similarity
- text
- category
- average
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000012896 Statistical algorithm Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本相似度最佳阈值自动寻找及优化方法及装置。该方法包括:根据问题列表中每个问题的向量表示,计算问题相似度矩阵;遍历问题类别及问题相似度矩阵,得到问题类别平均相似度矩阵;判断是否有类间问题相似度大于类别平均相似度;如果有,则发现存在的配置问题,并重复上述操作,直至不再存在类间问题相似度大于类别平均相似度的情况;当不再存在类间问题相似度大于类别平均相似度的情况时,遍历问题类别平均相似度矩阵,得到最优相似度阈值。本发明提供的文本相似度最佳阈值自动寻找及优化方法及装置能够自动寻找适合该机器人已配置数据集的相似度阈值。
Description
技术领域
本发明涉及机器问答技术领域,特别是涉及一种文本相似度最佳阈值自动寻找及优化方法及装置。
背景技术
针对用户信息获取类的需求,对话机器人的FAQ问答模型的核心处理步骤是将用户问题文本编码为一个表示向量,再计算该向量与已配置问题集或前置步骤已召回的相似问题列表中每个问题的的编码向量之间的相似度,相似度超过系统配置阈值的问题作为命中问题,再将相应的答案回复给用户。相似度阈值一般根据经验设置一个固定的值,比如0.75、0.8、0.85等。
阈值设置的是否合理直接影响FAQ问答模型的性能,然而固定的相似度阈值不可能适配不同场景的不同问答对数据集,而机器人训练师也无法根据所配置问答对数据估计一个合适的阈值,从而导致所配置的机器人问答效果无法达到最佳的准确率和召回率。
发明内容
本发明要解决的技术问题是提供一种文本相似度最佳阈值自动寻找及优化方法及装置,能够自动寻找适合该机器人已配置数据集的相似度阈值。为解决上述技术问题,本发明提供了一种文本相似度最佳阈值自动寻找及优化方法,所述方法包括:根据问题列表中每个问题的向量表示,计算问题相似度矩阵;遍历问题类别及问题相似度矩阵,得到问题类别平均相似度矩阵;判断是否有类间问题相似度大于类别平均相似度;如果有,则发现存在的配置问题,并重复上述操作,直至不再存在类间问题相似度大于类别平均相似度的情况;当不再存在类间问题相似度大于类别平均相似度的情况时,遍历问题类别平均相似度矩阵,得到最优相似度阈值。
在一些实施方式中,还包括:在根据问题列表中每个问题的向量表示,计算问题相似度矩阵之前,形成问题类别列表;使用NLP技术文本表示算法或深度学习预训练模型得到每个问题文本的向量表示。
在一些实施方式中,NLP技术文本表示算法包括:TFIDF词频统计算法。
在一些实施方式中,还包括:在形成问题类别列表之前,获取对话机器人的FAQ数据配置的问题列表。
在一些实施方式中,判断是否有类间问题相似度大于类别平均相似度,包括:选取问题列表中的一个问题;根据该问题的类别配置,计算该问题的类别平均相似度;根据问题相似度矩阵,判断与该问题有关的类间问题相似度是否均小于类别平均相似度。
此外,本发明还提供了一种文本相似度最佳阈值自动寻找及优化装置,所述装置包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据前文所述的文本相似度最佳阈值自动寻找及优化方法。
采用这样的设计后,本发明至少具有以下优点:
自动寻找适合该机器人已配置数据集的相似度阈值,FAQ问答模型在召回率不降低的情况下,精确率提高3个百分点;
计算问题的类内和类间平均相似度过程,可以发现FAQ数据集中存在问题的扩展问配置,作为对话机器人配置的健康检查工具,针对发现的问题进一步优化;
后续将实际对话中未匹配或误匹配问题标注后加入机器人配置,重新计算相似度阈值后,可持续优化机器人FAQ问答模型性能。
附图说明
上述仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,以下结合附图与具体实施方式对本发明作进一步的详细说明。
图1是本发明实施例提供的文本相似度最佳阈值自动寻找及优化方法的流程图;
图2是本发明实施例提供的文本相似度最佳阈值自动寻找及优化方法的流程图;
图3是本发明实施例提供的文本相似度最佳阈值自动寻找及优化装置的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1示出了本发明本发明实施例提供的文本相似度最佳阈值自动寻找及优化方法的流程。参见图1,文本相似度最佳阈值自动寻找及优化方法包括以下步骤:
S11,获取对话机器人的FAQ数据配置的问题列表。
S12,形成问题类别列表,使用NLP技术文本表示算法或深度学习预训练模型得到每个问题文本的向量表示。
典型的,NLP技术文本表示算法或深度学习预训练模型可以是:TFIDF词频统计算法。
S13,根据问题列表中每个问题的向量表示,计算问题相似度矩阵。
S14,遍历问题类别及问题相似度矩阵,得到问题类别平均相似度矩阵。
S15,判断是否有类间问题相似度大于类别平均相似度,如果存在类间问题相似度大于类别平均相似度的情况,执行S16,如果不再存在类间问题相似度大于类别平均相似度的情况,执行S18。
判断过程可以是,遍历问题列表中的每个问题,看属于该问题的类间问题相似度是否有大于类别平均相似度的问题。
S16,优化FAQ配置。
此处,FAQ配置可以理解为问题类别配置的另一种形式。而且,FAQ配置通常包括不同问题的类别归属。
优化FAQ配置的操作完成后,执行S11的操作。
S17,根据FAQ配置生成对话机器人FAQ问题配置数据。
S18,遍历问题类别平均相似度矩阵,得到最优相似度阈值。
图2示出了本发明另一个实施例提供的文本相似度最佳阈值自动寻找及优化方法的流程。参见图2,文本相似度最佳阈值自动寻找及优化方法包括以下步骤:
S21,获取对话机器人的FAQ数据配置的问题列表。
S22,形成问题类别列表,使用NLP技术文本表示算法或深度学习预训练模型得到每个问题文本的向量表示。
S23,根据问题列表中每个问题的向量表示,计算问题相似度矩阵。
S24,遍历问题类别及问题相似度矩阵,得到问题类别平均相似度矩阵。
S25,判断是否有类间问题相似度大于类别平均相似度,如果存在类间问题相似度大于类别平均相似度的情况,执行S26,如果不再存在类间问题相似度大于类别平均相似度的情况,执行S27。
S26,优化问题列表配置,完成后执行S23。
S27,遍历问题类别平均相似度矩阵,得到最优相似度阈值。
图2示出的实施例与图1示出的实施例的最大不同在于,在每次进行配置优化调整之后,不再从头运行数据获取、数据预处理的操作,而是直接根据调整后的配置计算相似度矩阵,以及后续的操作。
图3示出了文本相似度最佳阈值自动寻找及优化装置的结构。参见图3,例如,所述文本相似度最佳阈值自动寻找及优化装置300可以用于充当文本处理系统中的文本相似度阈值设置装置。如本文所述,文本相似度最佳阈值自动寻找及优化装置300可以用于在微服务系统中实现对文本处理系统中的文本相似度阈值的自动寻优调整功能。文本相似度最佳阈值自动寻找及优化装置300可以在单个节点中实现,或者文本相似度最佳阈值自动寻找及优化装置300的功能可以在网络中的多个节点中实现。本领域的技术人员应意识到,术语文本相似度最佳阈值自动寻找及优化装置包括广泛意义上的设备,图3中示出的文本相似度最佳阈值自动寻找及优化装置300仅是其中一个示例。包括文本相似度最佳阈值自动寻找及优化装置300是为了表述清楚,并不旨在将本发明的应用限制为特定的文本相似度最佳阈值自动寻找及优化装置实施例或某一类文本相似度最佳阈值自动寻找及优化装置实施例。本发明所述的至少部分特征/方法可以在网络装置或组件,例如,文本相似度最佳阈值自动寻找及优化装置300中实现。例如,本发明中的特征/方法可以采用硬件、固件和/或在硬件上安装运行的软件实现。文本相似度最佳阈值自动寻找及优化装置300可以是任何通过网络处理,存储和/或转发数据帧的设备,例如,服务器,客户端,数据源等。如图3所示,文本相似度最佳阈值自动寻找及优化装置300可以包括收发器(Tx/Rx)310,其可以是发射器,接收器,或其组合。Tx/Rx310可以耦合到多个端口350(例如上行接口和/或下行接口),用于从其他节点发送和/或接收帧。处理器330可耦合至Tx/Rx310,以处理帧和/或确定向哪些节点发送帧。处理器330可以包括一个或多个多核处理器和/或存储器设备332,其可以用作数据存储器,缓冲区等。处理器330可以被实现为通用处理器,或者可以是一个或多个专用集成电路(application specific integrated circuit,简称ASIC)和/或数字信号处理器(digital signal processor,简称DSP)的一部分。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰,均落在本发明的保护范围内。
Claims (6)
1.一种文本相似度最佳阈值自动寻找及优化方法,其特征在于,包括:
根据问题列表中每个问题的向量表示,计算问题相似度矩阵;
遍历问题类别及问题相似度矩阵,得到问题类别平均相似度矩阵;
判断是否有类间问题相似度大于类别平均相似度;
如果有,则发现存在的配置问题,并重复上述操作,直至不再存在类间问题相似度大于类别平均相似度的情况;
当不再存在类间问题相似度大于类别平均相似度的情况时,遍历问题类别平均相似度矩阵,得到最优相似度阈值。
2.根据权利要求1所述的文本相似度最佳阈值自动寻找及优化方法,其特征在于,还包括:
在根据问题列表中每个问题的向量表示,计算问题相似度矩阵之前,形成问题类别列表;
使用NLP技术文本表示算法或深度学习预训练模型得到每个问题文本的向量表示。
3.根据权利要求2所述的文本相似度最佳阈值自动寻找及优化方法,其特征在于,NLP技术文本表示算法包括:TFIDF词频统计算法。
4.根据权利要求2所述的文本相似度最佳阈值自动寻找及优化方法,其特征在于,还包括:
在形成问题类别列表之前,获取对话机器人的FAQ数据配置的问题列表。
5.根据权利要求1所述的文本相似度最佳阈值自动寻找及优化方法,其特征在于,判断是否有类间问题相似度大于类别平均相似度,包括:
选取问题列表中的一个问题;
根据该问题的类别配置,计算该问题的类别平均相似度;
根据问题相似度矩阵,判断与该问题有关的类间问题相似度是否均小于类别平均相似度。
6.一种文本相似度最佳阈值自动寻找及优化装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至5任意一项所述的文本相似度最佳阈值自动寻找及优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374448.1A CN112329428B (zh) | 2020-11-30 | 2020-11-30 | 文本相似度最佳阈值自动寻找及优化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011374448.1A CN112329428B (zh) | 2020-11-30 | 2020-11-30 | 文本相似度最佳阈值自动寻找及优化方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329428A true CN112329428A (zh) | 2021-02-05 |
CN112329428B CN112329428B (zh) | 2024-08-27 |
Family
ID=74309403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011374448.1A Active CN112329428B (zh) | 2020-11-30 | 2020-11-30 | 文本相似度最佳阈值自动寻找及优化方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329428B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1158460A (zh) * | 1996-12-31 | 1997-09-03 | 复旦大学 | 一种跨语种语料自动分类与检索方法 |
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
CN104281674A (zh) * | 2014-09-29 | 2015-01-14 | 同济大学 | 一种基于集聚系数的自适应聚类方法及系统 |
CN106682606A (zh) * | 2016-12-23 | 2017-05-17 | 湘潭大学 | 一种人脸确认方法及安全认证装置 |
CN106845397A (zh) * | 2017-01-18 | 2017-06-13 | 湘潭大学 | 一种基于相似度度量的人脸确认方法 |
US20180189376A1 (en) * | 2016-12-29 | 2018-07-05 | Intel Corporation | Data class analysis method and apparatus |
CN109614484A (zh) * | 2018-11-09 | 2019-04-12 | 华南理工大学 | 一种基于分类效用的文本聚类方法及其系统 |
CN109815788A (zh) * | 2018-12-11 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种图片聚类方法、装置、存储介质及终端设备 |
CN111061890A (zh) * | 2019-12-09 | 2020-04-24 | 腾讯云计算(北京)有限责任公司 | 一种标注信息验证的方法、类别确定的方法及装置 |
CN111340700A (zh) * | 2020-02-21 | 2020-06-26 | 北京中科虹霸科技有限公司 | 模型生成方法、分辨率提高方法、图像识别方法及装置 |
-
2020
- 2020-11-30 CN CN202011374448.1A patent/CN112329428B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1158460A (zh) * | 1996-12-31 | 1997-09-03 | 复旦大学 | 一种跨语种语料自动分类与检索方法 |
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
CN104281674A (zh) * | 2014-09-29 | 2015-01-14 | 同济大学 | 一种基于集聚系数的自适应聚类方法及系统 |
CN106682606A (zh) * | 2016-12-23 | 2017-05-17 | 湘潭大学 | 一种人脸确认方法及安全认证装置 |
US20180189376A1 (en) * | 2016-12-29 | 2018-07-05 | Intel Corporation | Data class analysis method and apparatus |
CN106845397A (zh) * | 2017-01-18 | 2017-06-13 | 湘潭大学 | 一种基于相似度度量的人脸确认方法 |
CN109614484A (zh) * | 2018-11-09 | 2019-04-12 | 华南理工大学 | 一种基于分类效用的文本聚类方法及其系统 |
CN109815788A (zh) * | 2018-12-11 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种图片聚类方法、装置、存储介质及终端设备 |
CN111061890A (zh) * | 2019-12-09 | 2020-04-24 | 腾讯云计算(北京)有限责任公司 | 一种标注信息验证的方法、类别确定的方法及装置 |
CN111340700A (zh) * | 2020-02-21 | 2020-06-26 | 北京中科虹霸科技有限公司 | 模型生成方法、分辨率提高方法、图像识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112329428B (zh) | 2024-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11322138B2 (en) | Voice awakening method and device | |
US11379723B2 (en) | Method and apparatus for compressing neural network | |
CN110309275B (zh) | 一种对话生成的方法和装置 | |
CN110798227B (zh) | 模型预测优化方法、装置、设备及可读存储介质 | |
US20170366448A1 (en) | Generating and transmitting back-to-source routing information | |
CN109753561B (zh) | 一种自动回复的生成方法及装置 | |
CN111737987A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN109379445A (zh) | 一种推送消息的发送方法及装置 | |
CN103617801A (zh) | 语音检测方法、装置及电子设备 | |
CN111415653B (zh) | 用于识别语音的方法和装置 | |
CN114519093A (zh) | 问答方法、装置、电子设备和计算机可读存储介质 | |
CN105227557A (zh) | 一种帐号处理方法及装置 | |
CN111787280A (zh) | 基于边缘计算的视频实时目标追踪方法及装置 | |
CN109309763B (zh) | 一种基于声纹的外呼检测方法以及系统 | |
CN112329428B (zh) | 文本相似度最佳阈值自动寻找及优化方法及装置 | |
WO2021196765A1 (zh) | 到达时间确定方法、装置、终端设备及存储介质 | |
EP3876115A1 (en) | Data prefetching method and apparatus, electronic device, and computer-readable storage medium | |
CN115529256A (zh) | 排障方法、系统、电子设备和计算机可读存储介质 | |
CN113241071B (zh) | 一种语音处理方法、电子设备及存储介质 | |
CN107688978B (zh) | 用于检测重复订单信息的方法及装置 | |
EP4053715A3 (en) | Method and apparatus for searching instant messaging object, electronic device and storage medium | |
CN112489644B (zh) | 用于电子设备的语音识别方法及装置 | |
CN115664903A (zh) | 基于编码脉冲技术的数据包对齐方法及装置 | |
CN112637139A (zh) | 一种基于物联网的语音传输处理方法、装置及计算机设备 | |
CN114861064A (zh) | 基于双塔模型的对象推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |