CN116244439A - 一种分析意图的方法、装置、设备和可读存储介质 - Google Patents

一种分析意图的方法、装置、设备和可读存储介质 Download PDF

Info

Publication number
CN116244439A
CN116244439A CN202310207219.8A CN202310207219A CN116244439A CN 116244439 A CN116244439 A CN 116244439A CN 202310207219 A CN202310207219 A CN 202310207219A CN 116244439 A CN116244439 A CN 116244439A
Authority
CN
China
Prior art keywords
text
speech
intention
analyzed
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310207219.8A
Other languages
English (en)
Inventor
聂颖杰
纪诚
杜新凯
吕超
姚雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202310207219.8A priority Critical patent/CN116244439A/zh
Publication of CN116244439A publication Critical patent/CN116244439A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种分析意图的方法、装置、设备和可读存储介质,该方法包括,对目标用户的语音进行识别,得到待分析文本;通过预设的意图分析模型对待分析文本进行分析,得到分析结果,其中,意图分析模型是通过多个训练样本对基础分类模型进行训练得到的,多个训练样本是通过对多个文本进行分词,并通过对多个文本进行分词得到的词语标注词性得到的。通过该方法可以达到提高分析文本意图的准确率的效果。

Description

一种分析意图的方法、装置、设备和可读存储介质
技术领域
本申请涉及文本意图分析的领域,具体而言,涉及一种分析意图的方法、装置、设备和可读存储介质。
背景技术
目前,传统的文本意图分析模型是通过采用句子篇章和词语进行构图,通过图卷积神经网络对构图进行分析,进而分析出文本意图的。
上述基于句子篇章和词语进行构图进行意图分析的方法存在很大的局限性,当文本过短,其中的中文词汇存在不同属性时,尤其在中文口语环境下识别更容易存在误差,导致意图分析难以达到较高的准确率。
因此,如何提高分析文本意图的准确率,是一个需要解决的技术问题。
发明内容
本申请实施例的目的在于提供一种分析意图的方法,通过本申请的实施例的技术方案可以达到提高分析文本意图的准确率的效果。
第一方面,本申请实施例提供了一种分析意图的方法,包括,对目标用户的语音进行识别,得到待分析文本;通过预设的意图分析模型对待分析文本进行分析,得到分析结果,其中,意图分析模型是通过多个训练样本对基础分类模型进行训练得到的,多个训练样本是通过对多个文本进行分词,并通过对多个文本进行分词得到的词语标注词性得到的。
本申请在上述实施例中,通过对文本分词得到的词语进行词性的标注,可以通过文本中词语和词语对应的词性对文本的意图进行分析,不仅可以根据文本的关键词对文本意图进行准确的分析,还可以根据关键词的词性对文本意图进行分析,可以达到提高分析文本意图的准确率的效果。
在一些实施例中,在对目标用户的语音进行识别,得到待分析文本之前,还包括:
获取系统内多个文本;
对多个文本进行分词,得到多个分词集合;
对多个分词集合中每一词语的词性进行标注,得到多个训练样本;
通过多个训练样本对基础分类模型进行训练,得到意图分析模型。
本申请在上述实施例中,通过对文本的词语的词性进行标注得到的训练样本,可以使训练好的意图分析模型可以根据文本的词语和词语对应的词性对待分析文本的意图进行准确分析。
在一些实施例中,对多个文本进行分词,得到多个分词集合,包括:
将多个文本进行预处理,得到多个处理后的文本,其中,预处理的方法包括:清洗、删除乱码、删除空文本、删除特殊字符和除燥中的至少一种;
对多个处理后的文本进行分词,得到多个分词集合。
本申请在上述实施例中,通过对文本的预处理,可以使文本能够更好的进行分词,不受文字之外的其它因素的影响。
在一些实施例中,对多个分词集合中每一词语的词性进行标注,得到多个训练样本,包括:
对多个分词集合中每一词语的词性进行标注,得到多个标注集合;
构建多个标注集合中每一词语的词语节点和每一词性的词性节点,得到多个词语节点和多个词性节点;
通过一种加权技术将多个词语节点和多个词性节点进行连接,得到多个训练样本,其中,多个训练样本中每一训练样本包括多个词语节点和多个词性节点的连接图,以及连接图对应的标准意图。
本申请在上述实施例中,通过构建的词语节点和词性节点的连接,可以形成一个具有逻辑关系的连接图,通过连接图对模型进行训练,可以使模型在进行意图分析时,可以根据文本的词语和词语之间,词语和词性之间,词性和词性之间的连接关系准确的对文本的意图进行分析。
在一些实施例中,通过多个训练样本对基础分类模型进行训练,得到意图分析模型,包括:
通过多个训练样本对基础分类模型进行训练,得到初始意图分析模型;
筛选多个训练样本中的部分训练样本,得到验证集和测试集;
通过验证集对初始意图分析模型进行验证,得到验证后的意图分析模型;
通过测试集对验证后的意图分析模型进行测试,得到意图分析模型。
本申请在上述实施例中,通过验证集和测试集对意图分析模型的进一步验证和测试,可以使模型在进行意图分析时,分析的更加准确。
在一些实施例中,对目标用户的语音进行识别,得到待分析文本,包括:
对目标用户的语音进行识别,得到识别文本;
对待分析文本进行预处理,得到待分析文本。
本申请在上述实施例中,通过对预处理后的待分析文本进行意图分析时得到的分析结果更加准确。
在一些实施例中,通过预设的意图分析模型对待分析文本进行分析,得到分析结果,包括:
通过意图分析模型对待分析文本的一个或多个词语和一个或多个词语对应的词性进行分析,得到第二分析结果;
通过意图分析模型对第二分析结果进行意图分析,得到分析结果,其中,分析结果表示待分析文本的意图。
本申请在上述实施例中,通过模型对待分析文本的词语和词性的分析可以得到初步的分析结果,再次通过模型对分析结果的分析,可以准确的分析出待分析文本的意图。
第二方面,本申请实施例提供了一种分析意图的装置,包括:
识别模块,用于对目标用户的语音进行识别,得到待分析文本;
分析模块,用于通过预设的意图分析模型对待分析文本进行分析,得到分析结果,其中,意图分析模型是通过多个训练样本对基础分类模型进行训练得到的,多个训练样本是通过对多个文本进行分词,并通过对多个文本进行分词得到的词语标注词性得到的。
可选的,所述装置还包括:
训练模块,用于所述识别模块在对目标用户的语音进行识别,得到待分析文本之前,获取系统内多个文本;
对多个文本进行分词,得到多个分词集合;
对多个分词集合中每一词语的词性进行标注,得到多个训练样本;
通过多个训练样本对基础分类模型进行训练,得到意图分析模型。
可选的,训练模块具体用于:
将多个文本进行预处理,得到多个处理后的文本,其中,预处理的方法包括:清洗、删除乱码、删除空文本、删除特殊字符和除燥中的至少一种;
对多个处理后的文本进行分词,得到多个分词集合。
可选的,训练模块具体用于:
对多个分词集合中每一词语的词性进行标注,得到多个标注集合;
构建多个标注集合中每一词语的词语节点和每一词性的词性节点,得到多个词语节点和多个词性节点;
通过一种加权技术将多个词语节点和多个词性节点进行连接,得到多个训练样本,其中,多个训练样本中每一训练样本包括多个词语节点和多个词性节点的连接图,以及连接图对应的标准意图。
可选的,训练模块具体用于:
通过多个训练样本对基础分类模型进行训练,得到初始意图分析模型;
筛选多个训练样本中的部分训练样本,得到验证集和测试集;
通过验证集对初始意图分析模型进行验证,得到验证后的意图分析模型;
通过测试集对验证后的意图分析模型进行测试,得到意图分析模型。
可选的,识别模块具体用于:
对目标用户的语音进行识别,得到识别文本;
对待分析文本进行预处理,得到待分析文本。
可选的,分析模块具体用于:
通过意图分析模型对待分析文本的一个或多个词语和一个或多个词语对应的词性进行分析,得到第二分析结果;
通过意图分析模型对第二分析结果进行意图分析,得到分析结果,其中,分析结果表示待分析文本的意图。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种分析意图的方法的流程图;
图2为本申请实施例提供的一种意图分析模型的训练方法的流程图;
图3为本申请实施例提供的一种分析意图的装置的示意框图;
图4为本申请实施例提供的一种分析意图的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和显示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
首先对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
TF-IDF:(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(InverseDocument Frequency)。
PMI:(Pointwise Mutual Information)点互信息,一种用来计算两种事物之间的关系的方法。
GCN:Graphics Core Next(GCN)架构是一种全新的消费类GPU设计方式。
本申请应用于文本意图分析的场景,具体场景为通过文本中词语和词语、词性和词性以及词语和词性之间通过点互信息的关系构建边,进而通过上述关系分析文本的意图。
但是目前,传统的文本意图分析模型是通过采用句子篇章和词语进行构图,通过图卷积神经网络对构图进行分析,进而分析出文本意图的。上述基于句子篇章和词语进行构图进行意图分析的方法存在很大的局限性,当文本过短,其中的中文词汇存在不同属性时,尤其在中文口语环境下识别更容易存在误差,导致意图分析难以达到较高的准确率。
为此本申请通过对目标用户的语音进行识别,得到待分析文本;通过预设的意图分析模型对待分析文本进行分析,得到分析结果,其中,意图分析模型是通过多个训练样本对基础分类模型进行训练得到的,多个训练样本是通过对多个文本进行分词,并通过对多个文本进行分词得到的词语标注词性得到的。通过对文本分词得到的词语进行词性的标注,可以通过文本中词语和词语对应的词性对文本的意图进行分析,不仅可以根据文本的关键词对文本意图进行准确的分析,还可以根据关键词的词性对文本意图进行分析,可以达到提高分析文本意图的准确率的效果。
本申请实施例中,执行主体可以为分析意图系统中的分析意图设备,实际应用中,分析意图设备可以为终端设备和服务器等电子设备,在此不做限制。
下面结合图1对本申请实施例的分析意图的方法进行详细描述。
请参看图1,图1为本申请实施例提供的一种分析意图的方法的流程图,如图1所示的分析意图的方法包括:
步骤110:对目标用户的语音进行识别,得到待分析文本。
其中,目标用户可以是目标领域中的用户,例如,保险领域人员、服务行业人员和领导人员等。待分析文本可以是目标用户的一段具有意图表达的文本,例如,“车险的价格是多少”和“我想咨询保险业务”等文本。
在本申请的一些实施例中,在对目标用户的语音进行识别,得到待分析文本之前,图1所示的方法还包括:获取系统内多个文本;对多个文本进行分词,得到多个分词集合;对多个分词集合中每一词语的词性进行标注,得到多个训练样本;通过多个训练样本对基础分类模型进行训练,得到意图分析模型。
本申请在上述实施例中,通过对文本的词语的词性进行标注得到的训练样本,可以使训练好的意图分析模型可以根据文本的词语和词语对应的词性对待分析文本的意图进行准确分析。
其中,多个文本可以是数据库中存储的历史的文本数据,可以是目标用户的一些数据,也可以是其他用户的一些文本数据,这些数据都可以具有意图表达的倾向。多个文本进行分词每一文本分词之后都可以得到对应的一个分词集合。词语的词性可以是名词、代词、动词、形容词、数词、量词、区别词、副词、介词、连词、冠词和助词等。基础分类模型可以是基础的图卷积模型,具有GCN网络结构的卷积模型,其中也可以包括一个分类器用于对文本进行分类。
在本申请的一些实施例中,对多个文本进行分词,得到多个分词集合,包括:将多个文本进行预处理,得到多个处理后的文本,其中,预处理的方法包括:清洗、删除乱码、删除空文本、删除特殊字符和除燥中的至少一种;对多个处理后的文本进行分词,得到多个分词集合。
本申请在上述实施例中,通过对文本的预处理,可以使文本能够更好的进行分词,不受文字之外的其它因素的影响。
在本申请的一些实施例中,对多个分词集合中每一词语的词性进行标注,得到多个训练样本,包括:对多个分词集合中每一词语的词性进行标注,得到多个标注集合;构建多个标注集合中每一词语的词语节点和每一词性的词性节点,得到多个词语节点和多个词性节点;通过一种加权技术将多个词语节点和多个词性节点进行连接,得到多个训练样本,其中,多个训练样本中每一训练样本包括多个词语节点和多个词性节点的连接图,以及连接图对应的标准意图。
本申请在上述实施例中,通过构建的词语节点和词性节点的连接,可以形成一个具有逻辑关系的连接图,通过连接图对模型进行训练,可以使模型在进行意图分析时,可以根据文本的词语和词语之间,词语和词性之间,词性和词性之间的连接关系准确的对文本的意图进行分析。
其中,将句子级别的文本看做一个节点,每一分词看做一个节点,每一词性也看做一个节点,通过TF-IDF将文本和词语构建边,词语与词语之间、词语与词性之间以及词性和词性之间都通过PMI构建边,可以得到一个节点连接图,每一个文本都对应一个连接图,每一个连接图都可以是一个训练样本。
在本申请的一些实施例中,通过多个训练样本对基础分类模型进行训练,得到意图分析模型,包括:通过多个训练样本对基础分类模型进行训练,得到初始意图分析模型;筛选多个训练样本中的部分训练样本,得到验证集和测试集;通过验证集对初始意图分析模型进行验证,得到验证后的意图分析模型;通过测试集对验证后的意图分析模型进行测试,得到意图分析模型。
本申请在上述实施例中,通过验证集和测试集对意图分析模型的进一步验证和测试,可以使模型在进行意图分析时,分析的更加准确。
其中,验证集合测试集可以从训练样本中获取,测试时可以根据输出的结果和标准意图进行对比,再次对模型的参数进行调整,使调整后的意图分析模型可以得到标准意图。也可以在得到训练样本时采用预设的比例划分,得到对应比例的训练样本、验证样本和测试样本,例如,将训练样本进一步划分为:70%、20%和10%分别对应训练样本、验证样本和测试样本。
在本申请的一些实施例中,对目标用户的语音进行识别,得到待分析文本,包括:对目标用户的语音进行识别,得到识别文本;对待分析文本进行预处理,得到待分析文本。
本申请在上述实施例中,通过对预处理后的待分析文本进行意图分析时得到的分析结果更加准确。
步骤120:通过预设的意图分析模型对待分析文本进行分析,得到分析结果。
其中,意图分析模型是通过多个训练样本对基础分类模型进行训练得到的,多个训练样本是通过对多个文本进行分词,并通过对多个文本进行分词得到的词语标注词性得到的。分析结果可以是文本意图分析的结果,代表待分析文本的意图。
在本申请的一些实施例中,通过预设的意图分析模型对待分析文本进行分析,得到分析结果,包括:通过意图分析模型对待分析文本的一个或多个词语和一个或多个词语对应的词性进行分析,得到第二分析结果;通过意图分析模型对第二分析结果进行意图分析,得到分析结果,其中,分析结果表示待分析文本的意图。
本申请在上述过程中,通过模型对待分析文本的词语和词性的分析可以得到初步的分析结果,再次通过模型对分析结果的分析,可以准确的分析出待分析文本的意图。
其中,第二分析结果,可以是词语和词性的意图,分析结果可以是待分析文本的意图。
在上述图1所示的过程中,本申请通过对目标用户的语音进行识别,得到待分析文本;通过预设的意图分析模型对待分析文本进行分析,得到分析结果,其中,意图分析模型是通过多个训练样本对基础分类模型进行训练得到的,多个训练样本是通过对多个文本进行分词,并通过对多个文本进行分词得到的词语标注词性得到的。通过对文本分词得到的词语进行词性的标注,可以通过文本中词语和词语对应的词性对文本的意图进行分析,不仅可以根据文本的关键词对文本意图进行准确的分析,还可以根据关键词的词性对文本意图进行分析,可以达到提高分析文本意图的准确率的效果。
下面结合图2对本申请实施例的意图分析模型的训练方法进行详细描述。
请参看图2,图2为本申请实施例提供的一种意图分析模型的训练方法的流程图,如图2所示的意图分析模型的训练方法包括:
步骤210:文本分词和词性标注。
具体的,对多个文本进行分词,得到多个分词集合;对多个分词集合中每一词语的词性进行标注,得到每一文本对应的多个词语和多个词性。
步骤220:构建文本句子节点、词语节点和词性节点。
具体的,将每一文本句子看做句子节点,词语看做词语节点,词性看做词性节点。
步骤230:构建由句子节点、词语节点和词性节点的连接图。
具体的,通过TF-IDF将文本和词语构建边,词语与词语之间、词语与词性之间以及词性和词性之间都通过PMI构建边,可以得到一个节点连接图。
步骤240:通过连接图训练图卷积模型。
具体的,通过连接图训练GCN网络结构的卷积模型,得到意图分析模型。
步骤250:分类器进行分类。
具体的,通过分类器对文本的意图进行分类,确定最终意图。
此外,图2所示的方法和步骤可参看图1所示的方法,此处不在过多赘述。
前文通过图1-图2描述了分析意图的方法和意图分析模型的训练方法,下面结合图3-图4描述分析意图的装置。
请参照图3,为本申请实施例中提供的一种分析意图的装置300的示意框图,该装置300可以是电子设备上的模块、程序段或代码。该装置300与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置300具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
可选的,所述装置300包括:
识别模块310,用于对目标用户的语音进行识别,得到待分析文本;
分析模块320,用于通过预设的意图分析模型对待分析文本进行分析,得到分析结果,其中,意图分析模型是通过多个训练样本对基础分类模型进行训练得到的,多个训练样本是通过对多个文本进行分词,并通过对多个文本进行分词得到的词语标注词性得到的。
可选的,所述装置还包括:
训练模块,用于所述识别模块在对目标用户的语音进行识别,得到待分析文本之前,获取系统内多个文本;对多个文本进行分词,得到多个分词集合;对多个分词集合中每一词语的词性进行标注,得到多个训练样本;通过多个训练样本对基础分类模型进行训练,得到意图分析模型。
可选的,训练模块具体用于:
将多个文本进行预处理,得到多个处理后的文本,其中,预处理的方法包括:清洗、删除乱码、删除空文本、删除特殊字符和除燥中的至少一种;对多个处理后的文本进行分词,得到多个分词集合。
可选的,训练模块具体用于:
对多个分词集合中每一词语的词性进行标注,得到多个标注集合;构建多个标注集合中每一词语的词语节点和每一词性的词性节点,得到多个词语节点和多个词性节点;通过一种加权技术将多个词语节点和多个词性节点进行连接,得到多个训练样本,其中,多个训练样本中每一训练样本包括多个词语节点和多个词性节点的连接图,以及连接图对应的标准意图。
可选的,训练模块具体用于:
通过多个训练样本对基础分类模型进行训练,得到初始意图分析模型;筛选多个训练样本中的部分训练样本,得到验证集和测试集;通过验证集对初始意图分析模型进行验证,得到验证后的意图分析模型;通过测试集对验证后的意图分析模型进行测试,得到意图分析模型。
可选的,识别模块具体用于:
对目标用户的语音进行识别,得到识别文本;对待分析文本进行预处理,得到待分析文本。
可选的,分析模块具体用于:
通过意图分析模型对待分析文本的一个或多个词语和一个或多个词语对应的词性进行分析,得到第二分析结果;通过意图分析模型对第二分析结果进行意图分析,得到分析结果,其中,分析结果表示待分析文本的意图。
请参照图4为本申请实施例中提供的一种分析意图的装置的结构示意框图,该装置可以包括存储器410和处理器420。可选的,该装置还可以包括:通信接口430和通信总线440。该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
具体的,存储器410,用于存储计算机可读指令。
处理器420,用于处理存储器存储的可读指令,能够执行图1方法中的各个步骤。
通信接口430,用于与其他节点设备进行信令或数据的通信。例如:用于与服务器或者终端的通信,或者与其它设备节点进行通信,本申请实施例并不限于此。
通信总线440,用于实现上述组件直接的连接通信。
其中,本申请实施例中设备的通信接口430用于与其他节点设备进行信令或数据的通信。存储器410可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器410可选的还可以是至少一个位于远离前述处理器的存储装置。存储器410中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器420执行时,电子设备执行上述图1所示方法过程。处理器420可以用于装置300上,并且用于执行本申请中的功能。示例性地,上述的处理器420可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本申请实施例并不局限于此。
本申请实施例还提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本申请实施例提供一种分析意图的方法、装置、电子设备和可读存储介质,该方法包括,对目标用户的语音进行识别,得到待分析文本;通过预设的意图分析模型对待分析文本进行分析,得到分析结果,其中,意图分析模型是通过多个训练样本对基础分类模型进行训练得到的,多个训练样本是通过对多个文本进行分词,并通过对多个文本进行分词得到的词语标注词性得到的。通过该方法可以达到提高分析文本意图的准确率的效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种分析意图的方法,其特征在于,包括:
对目标用户的语音进行识别,得到待分析文本;
通过预设的意图分析模型对所述待分析文本进行分析,得到分析结果,其中,所述意图分析模型是通过多个训练样本对基础分类模型进行训练得到的,所述多个训练样本是通过对多个文本进行分词,并通过对多个文本进行分词得到的词语标注词性得到的。
2.根据权利要求1所述的方法,其特征在于,在所述对目标用户的语音进行识别,得到待分析文本之前,所述方法还包括:
获取系统内所述多个文本;
对所述多个文本进行分词,得到多个分词集合;
对所述多个分词集合中每一词语的词性进行标注,得到所述多个训练样本;
通过所述多个训练样本对所述基础分类模型进行训练,得到所述意图分析模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个文本进行分词,得到多个分词集合,包括:
将所述多个文本进行预处理,得到多个处理后的文本,其中,所述预处理的方法包括:清洗、删除乱码、删除空文本、删除特殊字符和除燥中的至少一种;
对所述多个处理后的文本进行分词,得到所述多个分词集合。
4.根据权利要求3所述的方法,其特征在于,所述对所述多个分词集合中每一词语的词性进行标注,得到所述多个训练样本,包括:
对所述多个分词集合中每一词语的词性进行标注,得到多个标注集合;
构建所述多个标注集合中每一词语的词语节点和每一词性的词性节点,得到多个词语节点和多个词性节点;
通过一种加权技术将所述多个词语节点和所述多个词性节点进行连接,得到所述多个训练样本,其中,所述多个训练样本中每一训练样本包括所述多个词语节点和所述多个词性节点的连接图,以及所述连接图对应的标准意图。
5.根据权利要求4所述的方法,其特征在于,所述通过所述多个训练样本对所述基础分类模型进行训练,得到所述意图分析模型,包括:
通过所述多个训练样本对所述基础分类模型进行训练,得到初始意图分析模型;
筛选所述多个训练样本中的部分训练样本,得到验证集和测试集;
通过所述验证集对所述初始意图分析模型进行验证,得到验证后的意图分析模型;
通过所述测试集对所述验证后的意图分析模型进行测试,得到所述意图分析模型。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述对目标用户的语音进行识别,得到待分析文本,包括:
对所述目标用户的语音进行识别,得到识别文本;
对所述待分析文本进行预处理,得到所述待分析文本。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述通过预设的意图分析模型对所述待分析文本进行分析,得到分析结果,包括:
通过所述意图分析模型对所述待分析文本的一个或多个词语和所述一个或多个词语对应的词性进行分析,得到第二分析结果;
通过所述意图分析模型对所述第二分析结果进行意图分析,得到所述分析结果,其中,所述分析结果表示所述待分析文本的意图。
8.一种分析意图的装置,其特征在于,包括:
识别模块,用于对目标用户的语音进行识别,得到待分析文本;
分析模块,用于通过预设的意图分析模型对所述待分析文本进行分析,得到分析结果,其中,所述意图分析模型是通过多个训练样本对基础分类模型进行训练得到的,所述多个训练样本是通过对多个文本进行分词,并通过对多个文本进行分词得到的词语标注词性得到的。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7中任一项所述方法中的步骤。
10.一种计算机可读存储介质,其特征在于,包括:
计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-7中任一项所述的方法。
CN202310207219.8A 2023-02-24 2023-02-24 一种分析意图的方法、装置、设备和可读存储介质 Pending CN116244439A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310207219.8A CN116244439A (zh) 2023-02-24 2023-02-24 一种分析意图的方法、装置、设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310207219.8A CN116244439A (zh) 2023-02-24 2023-02-24 一种分析意图的方法、装置、设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN116244439A true CN116244439A (zh) 2023-06-09

Family

ID=86625913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310207219.8A Pending CN116244439A (zh) 2023-02-24 2023-02-24 一种分析意图的方法、装置、设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN116244439A (zh)

Similar Documents

Publication Publication Date Title
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN109460455B (zh) 一种文本检测方法及装置
US8843815B2 (en) System and method for automatically extracting metadata from unstructured electronic documents
AU2019219746A1 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
CN113254574A (zh) 一种机关公文辅助生成方法、装置以及系统
CN111125354A (zh) 文本分类方法及装置
CN109271489B (zh) 一种文本检测方法及装置
KR101561464B1 (ko) 수집 데이터 감성분석 방법 및 장치
CN104794212A (zh) 基于用户评论文本的上下文情感分类方法及分类系统
WO2023274047A1 (zh) 标准知识图谱构建、标准查询方法及装置
CN112364664B (zh) 意图识别模型的训练及意图识别方法、装置、存储介质
CN116244410B (zh) 一种基于知识图谱和自然语言的指标数据分析方法及系统
Haque et al. Opinion mining from bangla and phonetic bangla reviews using vectorization methods
CN111782793A (zh) 智能客服处理方法和系统及设备
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
Pinquié et al. Requirement mining for model-based product design
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
Heidari et al. Financial footnote analysis: developing a text mining approach
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
CN116244439A (zh) 一种分析意图的方法、装置、设备和可读存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
Karim et al. Classification of Google Play Store Application Reviews Using Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination