CN111737989A - 一种意图识别方法、装置、设备及存储介质 - Google Patents
一种意图识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111737989A CN111737989A CN202010591979.XA CN202010591979A CN111737989A CN 111737989 A CN111737989 A CN 111737989A CN 202010591979 A CN202010591979 A CN 202010591979A CN 111737989 A CN111737989 A CN 111737989A
- Authority
- CN
- China
- Prior art keywords
- sub
- label
- model
- segment
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000012634 fragment Substances 0.000 claims abstract description 61
- 238000013145 classification model Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims description 150
- 239000013598 vector Substances 0.000 claims description 107
- 230000011218 segmentation Effects 0.000 claims description 80
- 238000002372 labelling Methods 0.000 claims description 77
- 238000000605 extraction Methods 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 6
- 238000005215 recombination Methods 0.000 claims description 5
- 230000006798 recombination Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 10
- 238000012546 transfer Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种意图识别方法、装置、设备及存储介质,所述意图识别方法包括:接收待识别文本信息;将所述文本中的各个语句分别切分为具有不同语义的语句子片段;提取各个语句子片段的关键词;将所述各个语句子片段和从所述各个语句子片段中提取的关键词输入文本分类模型中进行分类,获得分类结果;将所述分类结果为指定类别的语句子片段按顺序重新组合,获得重组后文本;对所述重组后文本进行意图识别。本发明提供的意图识别方法提高了文本意图识别的准确率和效率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种意图识别方法、装置、设备及存储介质。
背景技术
智能对话系统是一种基于自然语言的人机交互系统,即利用机器学习、深度学习、强化学习或者迁移学习等智能算法使得机器理解人类语言,并与人类进行有效沟通,进而对人类语言中的意图进行理解并执行特定任务或作出回答的系统。
现有的意图识别方法一般是直接将用户输入的一整个句子输入到意图识别模型中来识别用户的意图,然而,这样往往会由于用户输入的无用信息太多而会干扰模型的判断,从而影响模型意图识别的准确率和效率。
因此,如何提高意图识别的准确率和效率是现有技术亟待解决的问题之一。
发明内容
本发明的主要目的在于提供一种意图识别方法、装置、设备及存储介质,旨在提高文本意图识别的准确率和效率。
第一方面,为实现上述目的,本发明提供了一种意图识别方法,所述意图识别方法包括:
接收待识别文本信息;
将所述文本中的各个语句分别切分为具有不同语义的语句子片段;
提取各个语句子片段的关键词;
将所述各个语句子片段和从所述各个语句子片段中提取的关键词输入文本分类模型中进行分类,获得分类结果;
将所述分类结果为指定类别的语句子片段按顺序重新组合,获得重组后文本;
对所述重组后文本进行意图识别。
本发明提供的意图识别方法,智能对话系统接收待识别文本信息,将所述文本中的各个语句分别切分为具有不同语义的语句子片段,提取各个语句子片段的关键词,将每一语句子片段和从所述语句子片段中提取的关键词分别输入文本分类模型中进行分类,获得分类结果,将各语句中分类结果为指定类别的语句子片段按顺序重新组合,获得重组后文本,进而,对重组后文本进行意图识别,依据本发明提供的意图识别方法,首先将待识别文本的每一语句按照语义切分成若干语句子片段,并根据文本分类模型对这些语句子片段进行分类,将指定类别的语句子片段按顺序进程重组,对重组后文本进行意图识别,由于仅对指定类别的语句子片段重组后的文本进行意图识别,有效提高了文本意图识别的效率,并且,在对一个语句分词的语句子片段进行分类时,加入了关键词识别,提高了文本分类的准确性,进而提高了文本意图识别的准确率。
较佳地,将所述文本中的各个语句分别切分为具有不同语义的语句子片段,具体包括:
针对所述文本中的每一语句,利用语义切分模型对所述语句进行切分,获得具有不同语义的语句子片段,所述语义切分模型是根据按照语义进行序列标注后的多个样本语句对第一预设训练模型进行训练获得的。
上述较佳的实施方式表征,利用语义切分模型对文本中每一语句进行切分,所述语义切分模型是根据按照语义进行序列标注后的多个样本语句对第一预设训练模型进行训练获得的。
较佳地,所述文本分类模型是根据多个样本语句的子片段和子片段中的关键词对第二预设训练模型进行训练获得的,所述样本语句的子片段是根据语义对所述样本语句进行切分获得的。
上述较佳的实施方式表征,根据多个样本语句的子片段和子片段中的关键词按照第二预设训练模型训练获得文本分类模型,在文本分类模型训练过程中,加入了关键词识别,提高了文本分类的准确性。
较佳地,所述提取各个语句子片段的关键词,具体包括:
利用关键词提取模型提取各个语句子片段的关键词,所述关键词提取模型是根据多个样本语句的子片段对第三预设训练模型进行训练获得的。
上述较佳的实施方式表征,利用预先训练的关键词提取模型进行关键词提取,所述关键词提取模型是根据多个样本语句的子片段对第三预设训练模型进行训练获得的。
可选地,在接收待识别文本信息之前,还包括:
获取样本语句;
针对每一样本语句,将所述样本语句根据语义进行序列标注,对所述样本语句的每个字标注标签;
将所述每一样本语句作为第一样本数据输入到第一预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差;
根据所述标签误差,对所述第一预设训练模型进行迭代机器训练;
将训练结束时的所述第一预设训练模型,作为语义切分模型;和/或
获取样本语句;
针对每一样本语句,将所述样本语句根据语义切分成N个子片段,N为大于等于1的整数;
针对每一子片段,根据关键词将所述子片段进行序列标注,对所述子片段的每个字标注标签;
将所述每一子片段作为第二样本数据输入到第三预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差;
根据所述标签误差,对所述第三预设训练模型进行迭代机器训练;
将训练结束时的所述第三预设训练模型,作为关键词提取模型;和/或
获取样本语句;
针对每一样本语句,将所述样本语句根据语义切分成N个子片段,N为大于等于1的整数;
针对每一子片段,根据预设规则对所述子片段标注类别标签;
提取所述子片段中的关键词;
将所述每一子片段和所述每一子片段的关键词作为第三样本数据输入到第二预设训练模型,预测所述子片段的类别标签,并确定预测的类别标签与标注的类别标签之间的类别标签误差;
根据所述类别标签误差,对所述第二预设训练模型进行迭代机器训练;
将训练结束时的所述第二预设训练模型,作为所述文本分类模型。
上述较佳的实施方式表征,本发明提出通过对样本语句根据语义进行序列标注,对样本语句的每个字根据语义标注标签,对样本语句根据语义进行序列标注后按照第一预设训练模型训练获得语义切分模型,以实现对语句根据语义进行切分,利用本发明提出的对样本语句根据语义进行序列标注后按照第一预设训练模型训练获得的语义切分模型对语句的切分准确率更高。
较佳地,所述第一预设训练模型包含字向量识别模型和序列标注模型;
所述将所述样本语句根据语义进行序列标注,对所述样本语句的每个字标注标签,具体包括:
确定所述样本语句中的语义切分点,所述语义切分点表征语义发生转折的点;
将各语义切分点对应的字标注第一标签;
将所述各语义切分点对应的字以外的其它字标注第二标签;
所述将所述每一样本语句作为第一样本数据输入到第一预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差,具体包括:
基于所述样本语句和所述字向量识别模型,获得所述样本语句的每个字的字向量;
将所述每个字的字向量输入到所述序列标注模型,预测所述每个字的标签;
针对所述样本语句的每个字,根据预测的标签与标注的标签确定标签误差;
所述根据所述标签误差,对所述第一预设训练模型进行迭代机器训练,具体包括:
根据所述标签误差对所述字向量识别模型和所述序列标注模型中包含的各个参数进行调整,以更新所述语义切分模型。
上述较佳的实施方式表征,通过确定样本语句中的语义切分点,即语义发生转折的点,将语义切分点对应的字和其它字分别标注不同的标签,通过上述序列标注方式,可以定位语义切分点的位置,是对语句进行语义切分的依据。
较佳地,所述第三预设训练模型包含字向量识别模型和序列标注模型;
所述根据关键词将所述子片段进行序列标注,对所述子片段的每个字标注标签,具体包括:
根据预设关键词与标签的对应关系,确定所述子片段中的关键词对应的第三标签;
将所述子片段中的所述关键词标注所述第三标签;
将所述子片段中除关键词以外的其它字标注第四标签;
所述将所述每一子片段作为第二样本数据输入到第三预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差,具体包括:
基于所述子片段和所述字向量识别模型,获得所述子片段的每个字的字向量;
将所述每个字的字向量输入到所述序列标注模型,预测所述每个字的标签;
针对所述子片段的每个字,根据预测的标签与标注的标签确定标签误差;
所述根据所述标签误差,对所述第三预设训练模型进行迭代机器训练,具体包括:
根据所述标签误差对所述字向量识别模型和所述序列标注模型中包含的各个参数进行调整,以更新所述关键词提取模型。
较佳地,所述第二预设训练模型包括句子向量识别模型和分类模型;
所述根据预设规则对所述子片段标注类别标签,具体包括:
根据所述样本语句对应的语境及上下文信息确定所述子片段所属的类别;
根据预设类别与类别标签的对应关系,确定所述子片段所属的类别的类别标签;
对所述子片段标注所述类别标签;
所述将所述每一子片段和所述每一子片段的关键词作为第三样本数据输入到第二预设训练模型,预测所述子片段的类别标签,并确定预测的类别标签与标注的类别标签之间的类别标签误差,具体包括:
针对每一子片段,基于所述子片段的关键词和预设词向量识别模型,获得所述关键词的词向量;
基于所述子片段和所述句子向量识别模型,获得所述子片段的向量;
将所述子片段的向量和所述关键词的词向量进行融合,将融合后的向量输入到所述分类模型,预测所述子片段的类别标签;
根据对所述子片段标注的类别标签与预测的类别标签,确定所述子片段的类别标签误差;
所述根据所述类别标签误差,对所述第二预设训练模型进行迭代机器训练,具体包括:
根据所述类别标签误差对所述句子向量识别模型和所述分类模型中包含的各个参数进行调整,以更新所述文本分类模型。
上述较佳的实施方式表征,在文本分类模型的训练过程中,对样本语句根据语义切分后的子片段进行分类时,加入了子片段的关键词提取,将子片段的向量和该子片段的关键词的词向量融合后的向量按照第二预设训练模型进行训练获得的文本分类模型,提高了分类的准确性。并且,对于样本语句中的每一子片段,根据样本语句对应的语境及上下文信息确定所述子片段所属的类别,对该子片段标注其所述类别对应的类别标签,由于结合了样本语句对应的语境及上下文信息来判断子片段针对样本语句所属的类别,分类更加精确。
第二方面,本发明提供了一种意图识别装置,包括:
接收单元,用于接收待识别文本信息;
切分单元,用于将所述文本中的各个语句分别切分为具有不同语义的语句子片段;
关键词提取单元,用于提取各个语句子片段的关键词;
分类单元,用于针对每一语句子片段,将所述语句子片段和从所述语句子片段中提取的关键词输入文本分类模型中进行分类,获得分类结果;
重组单元,用于将各语句中分类结果为指定类别的语句子片段按顺序重新组合,获得重组后文本;
意图识别单元,用于对所述重组后文本进行意图识别。
本发明提供的意图识别装置的技术效果可以参见上述第一方面或第一方面的各个实现方式的技术效果,此处不再赘述。
第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的意图识别程序,所述意图识别程序被所述处理器执行时实现本发明所述的意图识别方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有意图识别程序,所述意图识别程序被处理器执行时实现本发明所述的意图识别方法中的步骤。
附图说明
图1是本发明实施例提供的意图识别方法的实施流程示意图;
图2是本发明实施例中,语义切分模型的训练过程示意图;
图3是本发明实施例中,对样本语句进行序列标注的实施流程示意图;
图4是本发明实施例中,关键词提取模型的训练过程示意图;
图5是本发明实施例中,对子片段进行序列标注的实施流程示意图;
图6是本发明实施例中,文本分类模型的训练过程示意图;
图7是本发明实施例中,对子片段标注类别标签的实施流程示意图;
图8是本发明实施例提供的意图识别装置的结构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了便于理解,下面对本发明实施例中可能涉及的名词进行定义和解释。
序列标注:序列标注问题是自然语言处理(Natural Language Processing,NLP)中最常见的问题,绝大多数NLP问题都可以转化为序列标注问题。序列标注就是对于一个一维线性输入序列:x=x1,x2,x3,......xn,给序列x中的每个元素打上标签集合中的某个标签:y=y1,y2,y3,y......yn,其本质上是对线性序列中每个元素根据上下文内容进行分类的问题。一般情况下,对于NLP任务来说,线性序列就是输入的文本,往往可以把一个汉字看作线性序列的一个元素,则序列标注问题即:如何根据汉字的上下文给汉字打上一个合适的标签。
如图1所示,其为本发明实施例提供的意图识别方法的实施流程示意图,可以包括以下步骤:
S11、接收待识别文本信息。
具体实施时,智能对话系统接收用户输入的待分析的文本信息。如果用户输入的为语音信息,则智能对话系统需要先对所述语音信息进行语音识别,将所述语音信息转化为文本信息。
S12、将所述文本中的各个语句分别切分为具有不同语义的语句子片段。
具体实施时,智能对话系统针对所述文本中的每一语句,利用语义切分模型对所述语句进行切分,获得具有不同语义的语句子片段,其中,所述语义切分模型是根据按照语义进行序列标注后的多个样本语句对第一预设训练模型进行训练获得的,所述每一语句为所述待识别文本中由标点符号分隔开的每一语句。
较佳地,如果用户输入的所述待分析文本中包含标点符号,则在对所述文本中的每一语句进行切分之前,先将所述文本根据标点符号进行分割,获得分割后的语句。
其中,所述语义切分模型的训练过程如图2所示,可以包括以下步骤:
S21、获取样本语句。
具体实施时,智能对话系统获取用户输入的历史记录中的预设数量的语句,作为样本语句,构建样本数据集,其中,预设数量可以根据需要自行设定,本发明实施例对此不作限定。
S22、针对每一样本语句,将所述样本语句根据语义进行序列标注,对所述样本语句的每个字标注标签。
具体实施时,智能对话系统将所述样本语句根据语义进行序列标注,对所述样本语句的每个字标注标签,并将由所述样本语句的每个字对应的标签组成的序列称为所述样本语句的语义标注序列,所述语义标注序列表征根据语义对语句进行标注的序列。
具体地,可以通过如图3所示的流程对样本语句进行序列标注,包括以下步骤:
S31、确定样本语句中的语义切分点,所述语义切分点表征语义发生转折的点。
具体实施时,智能对话系统确定样本语句中的语义切分点,语义切分点即语义发生转折的点。
例如,在金融科技领域中,用户输入的一条样本语句为“我这两天回老家了忘了往卡里转钱了导致还款没有成功”,该语句中,“我这两天回老家了”、“忘了往卡里转钱了”、“导致还款没有成功”是三个具有不同语义的子片段,将这三个子片段的第一个字确定为语义切分点,即“我”、“忘”“导”。
S32、将各语义切分点对应的字标注第一标签。
具体实施时,预先设置语义切分点、非语义切分点与标签的对应关系,根据语义切分点与标签的对应关系,获取语义切分点对应的标签,记为第一标签,将各语义切分点对应的字标注所述第一标签。
其中,语义切分点和非语义切分点各自对应的标签可以根据需要自行设定,例如,可以但不限于设置语义切分点对应的标签为“1”,非语义切分点对应的标签为“0”。
S33、将所述各语义切分点对应的字以外的其它字标注第二标签。
具体实施时,根据非语义切分点与标签的对应关系,获取非语义切分点对应的标签,记为第二标签,将各非语义切分点对应的字标注所述第二标签,非语义切分点对应的字即所述各语义切分点对应的字以外的其它字。
例如,可以将“我这两天回老家了忘了往卡里转钱了导致还款没有成功”标注为:“我/1这/0两/0天/0回/0老/0家/0了/0忘/1了/0往/0卡/0里/0转/0钱/0了/0导/1致/0还/0款/0没/0有/0成/0功/0”,则该语句的语义标注序列为“100000001000000010000000”。
进而,针对样本语句,采用循环迭代的方式,执行步骤S23~步骤S26的操作,直到满足预设的收敛条件为止:
S23、将所述每一样本语句作为第一样本数据输入到第一预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差。具体实施时,智能对话系统首先对所述样本语句进行预处理。
具体地,对样本数据集中的样本语句进行如下预处理:将样本语句进行字符级切分并转换为ID形式,句首置[CLS]标签,句末置[SEP]标签,并将样本语句变为定长,对于长度不够的样本语句用[PAD](或“0”)补齐,将超过定长的样本语句进行截断,其中,所述定长可以根据需要自行设定,例如,可以设置为128字节,本发明实施例对此不作限定。
所述第一预设训练模型包含字向量识别模型和序列标注模型,可以为但不限于Bert(Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码器表征)+BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆)+CRF(Conditional Random Field,条件随机场)模型,本发明实施例中仅以Bert+BiLSTM+CRF模型为例进行说明,其中,Bert模型为字向量识别模型,BiLSTM+CRF模型为序列标注模型,BiLSTM模型由前向LSTM(Long Short-Term Memory,长短时记忆)模型和后向LSTM模型组合而成,在BiLSTM模型后加上一层CRF模型,组成序列标注模型。
进而,将所述预处理后的每一样本语句输入到第一预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差。
具体地,可以通过以下步骤预测每个字的标签,并确定预测的标签与标注的标签之间的标签误差:
步骤a1、基于所述样本语句和所述字向量识别模型,获得所述样本语句的每个字的字向量。
具体实施时,将预处理后的样本语句输入到第一预设训练模型中的Bert模型,获得所述样本语句的每个字的字向量。
具体地,初始时,预先指定第一预设训练模型中包含的各个参数的值。
步骤a2、将所述每个字的字向量输入到所述序列标注模型,预测所述每个字的标签。
具体实施时,将所述样本语句的每个字的字向量输入到所述第一预设训练模型中的BiLSTM+CRF模型,预测所述样本语句每个字的标签。
步骤a3、针对所述样本语句的每个字,根据预测的标签与标注的标签确定标签误差。
具体实施时,针对所述样本语句的每个字,根据预设损失函数计算预测的标签与标注的标签的误差,即标签误差,其中,预设损失函数可以使用交叉熵损失函数,本发明实施例对此不作限定。
S24、根据所述标签误差,对所述第一预设训练模型进行迭代机器训练。
具体实施时,根据所述标签误差对所述第一预设训练模型中的字向量识别模型和所述序列标注模型中包含的各个参数进行调整,以更新所述语义切分模型。
具体地,根据标签误差对Bert模型和BiLSTM+CRF模型中的各个参数进行调整,以更新所述语义切分模型。
S25、将训练结束时的所述第一预设训练模型,作为语义切分模型。
具体实施时,当确定满足预设收敛条件时,得到训练后的语义切分模型。
具体实施时,可以通过以下方式确定满足预设收敛条件:
第一种方式:
确定连续n次迭代过程中,预测准确率相同且未提升,判定达到预设的收敛条件。
第二种方式:
确定连续m次迭代过程中,每一次迭代过程中样本数据的损失与前一次迭代过程中样本数据的损失之间的差值,满足预设的损失差值范围时,确定达到预设的收敛条件。
其中,样本数据的损失即为:样本语句中对每个字预测的标签与标注的标签之间的误差。
预设的损失差值范围可以根据经验自行设定,例如,可以设置为1%~5%,本发明实施例对此不作限定。
第三种方式:
确定当前迭代次数达到预设的最大迭代次数时,确定达到预设的收敛条件。
其中,预设的最大迭代次数可以根据经验自行设定,例如,可以设置为50次,本发明实施例对此不作限定。
S13、提取各个语句子片段的关键词。
具体实施时,智能对话系统利用关键词提取模型提取各个语句子片段的关键词,所述关键词提取模型是根据多个样本语句的子片段对第三预设训练模型进行训练获得的。
具体地,将各个语句子片段分别输入所述关键词提取模型中,获得各个语句子片段的关键词。
其中,所述关键词提取模型的训练过程如图4所示,可以包括以下步骤:
S41、获取样本语句。
具体实施时,智能对话系统获取用户输入的历史记录中的预设数量的语句,作为样本语句,构建样本数据集,其中,预设数量可以根据需要自行设定,本发明实施例对此不作限定。
S42、针对每一样本语句,将所述样本语句根据语义切分成N个子片段。
其中,N为大于等于1的整数。
具体实施时,确定样本语句中的语义切分点,按照所述语义切分点对所述样本数据进行切分,其中,语义切分点的确定参照步骤S31,此处不再赘述。
在具体实施时,当一个样本语句只有一种语义时,切分后的子片段即为该语句。
例如,样本语句为“我这两天回老家了忘了往卡里转钱了导致还款没有成功”,则可以将该样本语句切分为“我这两天回老家了”、“忘了往卡里转钱了”、“导致还款没有成功”三个子片段。
S43、针对每一子片段,根据关键词将所述子片段进行序列标注,对所述子片段的每个字标注标签。
具体实施时,按照如图5所示的流程对所述子片段进行序列标注,可以包括以下步骤:
S51、根据预设关键词与标签的对应关系,确定所述子片段中的关键词对应的第三标签。
具体实施时,预先设置关键词与标签的对应关系,根据所述关键词与标签的对应关系,确定从所述子片段中提取出的关键词对应的标签,记为第三标签。
其中,不同关键词对应的标签可以根据需要自行设定,例如可以将关键词“失败”对应的标签设置为“11”,由于“没有成功”和“失败”的意义相同,可以将关键词“没有成功”对应的标签设置为“1111”,可以将关键词“还款”对应的标签设置为“22”,将关键词“借款”对应的标签设置为“33”等,本发明实施例不限于此。
S52、将所述子片段中的所述关键词标注所述第三标签。
具体实施时,将所述子片段中的关键词标注其对应的标签,记为第三标签。
S53、将所述子片段中除关键词以外的其它字标注第四标签。
具体实施时,将所述子片段中除关键词以外的其它字均标注第四标签。其中,第四标签可以为与关键词对应的标签不同的任意标签,例如,可以为“0”。
可以将所述子片段中每个字对应的标签组成的序列确定为所述子片段的关键词标注序列。
例如,可以将子片段“导致还款没有成功”标注为“导/0致/0还/2款/2没/1有/1成/1功/1”,则该子片段的关键词标注序列为“00221111”。
S44、将所述每一子片段作为第二样本数据输入到第三预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差。
具体实施时,智能对话系统首先对所述子片段进行预处理。
具体地,分别对样本数据集中的每一子片段进行如下预处理:
将子片段进行字符级切分并转换为ID形式,子片段首置[CLS]标签,子片段末置[SEP]标签,并将子片段变为定长,对于长度不够的子片段用[PAD](或“0”)补齐,将超过定长的子片段进行截断,其中,所述定长可以根据需要自行设定,例如,可以设置为128字节,本发明实施例对此不作限定。
进而,将预处理后的每一子片段输入到所述第三预设训练模型,预测所述子片段的每个字的标签,并确定预测的标签与标注的标签之间的标签误差,期中,第三预设训练模型可以但不限于采用和第一预设训练模型相同的模型,本发明实施例仍以第三预设训练模型为Bert+BiLSTM+CRF模型为例进行说明,其中,Bert模型为字向量识别模型,BiLSTM+CRF模型为序列标注模型。
具体地,可以通过以下步骤预测每个字的标签,并确定预测的标签与标注的标签之间的标签误差:
步骤b1、基于所述子片段和所述字向量识别模型,获得所述子片段的每个字的字向量。
具体实施时,将预处理后的子片段输入到所述第三预设训练模型中的Bert模型,获得所述子片段的每个字的字向量。
初始时,预先指定第三预设训练模型中包含的各个参数的值,即Bert模型,以及BiLSTM+CRF模型中的各个参数的值。
步骤b2、将所述每个字的字向量输入到所述序列标注模型,预测所述每个字的标签。
具体实施时,将所述子片段的每个字的字向量输入到所述第三预设训练模型中的BiLSTM+CRF模型,预测所述子片段的每个字的标签。
步骤b3、针对所述子片段的每个字,根据预测的标签与标注的标签确定标签误差。
具体实施时,针对所述子片段的每个字,根据预设损失函数计算预测的标签与标注的标签的误差,即标签误差,其中,预设损失函数可以使用交叉熵损失函数,本发明实施例对此不作限定。
S45、根据所述标签误差,对所述第三预设训练模型进行迭代机器训练。
具体实施时,根据所述标签误差对所述第三预设训练模型中的字向量识别模型和所述序列标注模型中包含的各个参数进行调整,以更新所述关键词提取模型。
具体地,根据标签误差对Bert模型与BiLSTM+CRF模型中的各个参数进行调整,以更新所述关键词提取模型。
S46、将训练结束时的所述第三预设训练模型,作为关键词提取模型。
具体实施时,当确定满足预设收敛条件时,得到训练后的关键词提取模型。
具体地,可以通过以下方式确定满足预设收敛条件:
第一种方式:
确定连续n次迭代过程中,预测准确率相同且未提升,判定达到预设的收敛条件。
第二种方式:
确定连续m次迭代过程中,每一次迭代过程中样本数据的损失与前一次迭代过程中样本数据的损失之间的差值,满足预设的损失差值范围时,确定达到预设的收敛条件。
其中,样本数据的损失即为:子片段中对每个字预测的标签与标注的标签之间的误差。
预设的损失差值范围可以根据经验自行设定,例如,可以设置为1%~5%,本发明实施例对此不作限定。
第三种方式:
确定当前迭代次数达到预设的最大迭代次数时,确定达到预设的收敛条件。
其中,预设的最大迭代次数可以根据经验自行设定,例如,可以设置为50次,本发明实施例对此不作限定。
S14、将所述各个语句子片段和从所述语句子片段中提取的关键词输入文本分类模型中进行分类,获得分类结果。
具体实施时,智能对话系统针对每一语句子片段,将所述语句子片段和从所述语句子片段中提取的关键词输入文本分类模型中进行分类,获得分类结果,即:所述语句子片段所属的类别,其中,所述文本分类模型是根据多个样本语句的子片段和子片段中的关键词对第二预设训练模型进行训练获得的,所述样本语句的子片段是根据语义对所述样本语句进行切分获得的。
具体地,所述文本分类模型的训练过程如图6所示,可以包括以下步骤:
S61、获取样本语句。
具体实施时,智能对话系统获取用户输入的历史记录中的预设数量的语句,作为样本语句,构建样本数据集,其中,预设数量可以根据需要自行设定,本发明实施例对此不作限定。
S62、针对每一样本语句,将所述样本语句根据语义切分成N个子片段。
具体实施时,针对每一样本语句,将所述样本语句根据语义切分成N个子片段,N为大于等于1的整数。
具体地,确定样本语句中的语义切分点,按照所述语义切分点对所述样本数据进行切分,其中,语义切分点的确定参照步骤S31,此处不再赘述。
S63、针对每一子片段,根据预设规则对所述子片段标注类别标签。
具体实施时,按照如图7所示的流程对每一子片段标注类别标签,可以包括以下步骤:
S71、根据样本语句对应的语境及上下文信息确定所述样本语句中的子片段所属的类别。
具体实施时,智能对话系统针对样本语句中的每一子片段,根据所述样本语句对应的应用场景下的语境及上下文信息确定所述样本语句中的子片段所属的类别,其中,类别具体可以分为两类:有意义和无意义,即有意义的子片段和无意义的子片段。
例如,在金融科技领域,样本语句“我这两天回老家了忘了往卡里转钱了导致还款没有成功”中,真正有意义的是“导致还款没有成功”这一子片段,而“我这两天回老家了”、“忘了往卡里转钱了”这两个子片段是无意义的子片段。
S72、根据预设类别与类别标签的对应关系,确定所述子片段所属的类别的类别标签。
具体实施时,预先设置类别与类别标签的对应关系,根据所述类别与类别标签的对应关系,确定所述子片段所属的类别的类别标签。其中,不同类别对应的类别标签可以自行设置,例如,当类别为无意义时,可以设置其对应的类别标签为“1”,当类别为有意义时,可以设置其对应的类别标签为“0”,本发明实施例对此不作限定。
S73、对所述子片段标注所述类别标签。
具体实施时,对所述子片段标注确定的所述类别标签。
例如,可以将子片段“我这两天回老家了”标注为“我这两天回老家了/1”,将子片段“忘了往卡里转钱了”标注为“忘了往卡里转钱了/1”,将子片段“导致还款没有成功”标注为“导致还款没有成功/0”。
S64、提取所述子片段中的关键词。
具体实施时,针对每一子片段,利用所述关键词提取模型提取所述子片段中的关键词。
具体地,将每一子片段分别输入所述关键词提取模型中,输出每一子片段的关键词。
S65、将所述每一子片段和所述每一子片段的关键词作为第三样本数据输入到第二预设训练模型,预测所述子片段的类别标签,并确定预测的类别标签与标注的类别标签之间的类别标签误差。具体实施时,首先对每一子片段进行预处理。
具体地,分别对样本数据集中的每一子片段进行如下预处理:
将子片段进行字符级切分并转换为ID形式,子片段首置[CLS]标签,子片段末置[SEP]标签,并将子片段变为定长,对于长度不够的子片段用[PAD](或“0”)补齐,将超过定长的子片段进行截断,其中,所述定长可以根据需要自行设定,例如,可以设置为128字节,本发明实施例对此不作限定。
进而,将预处理后的每一子片段输入到第二预设训练模型,预测所述子片段的类别标签,并确定预测的类别标签与标注的类别标签之间的类别标签误差。其中,所述第二预设训练模型包括句子向量识别模型和分类模型,第二预设训练模型可以但不限于为Bert+DNN模型,其中,所述句子向量识别模型可以使用Bert模型,分类模型可以使用DNN(DeepNeural Network,深度神经网络)模型,本发明实施例对此不作限定,本发明实施例仅以第二预设训练模型使用Bert+DNN模型为例进行说明。
具体地,可以通过以下步骤预测所述子片段的类别标签,并确定预测的类别标签与标注的类别标签之间的类别标签误差:
步骤c1、针对每一子片段,基于所述子片段的关键词和预设词向量识别模型,获得所述关键词的词向量。
具体实施时,针对每一子片段,将所述子片段中的关键词输入到预设词向量模型中,获得所述关键词的词向量。所述预设词向量识别模型可以但不限于使用ELMo模型(Embedding from Language Model,嵌入式语言模型)或者GloVe(Global Vectors forword representation,词的向量化表示)模型,本发明实施例对此不作限定。
初始时,预先指定所述第二预设训练模型中包含的各参数的值,即预先指定第二预设训练模型中的Bert模型和DNN模型中包含的各个参数的值。
步骤c2、基于所述子片段和所述句子向量识别模型,获得所述子片段的向量。
具体实施时,针对每一子片段,将所述子片段输入到第二预设训练模型中的Bert模型中,获得所述子片段的向量。
具体地,将所述子片段输入到Bert模型中,获得所述子片段中每个字的字向量以及所述子片段的向量表示,所述子片段首标签[CLS]对应的向量即为所述子片段的向量。
步骤c3、将所述子片段的向量和所述关键词的词向量进行融合,将融合后的向量输入到所述分类模型,预测所述子片段的类别标签。
具体实施时,将所述子片段的向量和所述关键词的词向量进行融合,将融合后的向量输入到第二预设训练模型中的DNN模型,预测所述子片段的类别标签。
具体实施时,针对每一子片段,将所述子片段的向量和所述关键词的词向量进行融合,将融合后的向量输入到DNN模型,预测所述子片段的类别标签。其中,融合方式可以但不限于以下方式:将所述子片段的向量和所述关键词的词向量求和或者求平均,得到融合后的向量。
具体地,针对每一子片段,将融合后的向量输入到DNN模型后输出的向量的维数与所要分类的类别数量相同,例如,融合后的向量是768维的向量,将其输入到DNN模型后,输出是2维的向量,进而,将DNN模型输出的向量根据Softmax函数计算所述子片段属于每一类别的概率,根据所述子片段属于每一类别的概率,预测所述子片段所属的类别及所述子片段对应的类别标签。
具体地,初始时,预先指定第二预设训练模型中包含的各个参数的值,即预先指定第二预设训练模型中的Bert模型和DNN模型中包含的各个参数的值。
步骤c4、根据对所述子片段标注的类别标签与预测的类别标签,确定所述子片段的类别标签误差。
具体实施时,针对所述子片段,根据预设损失函数计算预测的标签与标注的标签的误差,即类别标签误差,其中,预设损失函数可以使用交叉熵损失函数,本发明实施例对此不作限定。
S66、根据所述类别标签误差,对所述第二预设训练模型进行迭代机器训练。
具体实施时,根据所述类别标签误差对所述句子向量识别模型和所述分类模型中包含的各个参数进行调整,即对Bert模型与DNN模型中的各个参数进行调整,以更新所述文本分类模型。
S67、将训练结束时的所述第二预设训练模型,作为所述文本分类模型。
具体实施时,当确定满足预设收敛条件时,得到训练后的文本分类模型。
具体实施时,可以通过以下方式确定满足预设收敛条件:
第一种方式:
确定连续n次迭代过程中,预测准确率相同且未提升,判定达到预设的收敛条件。
第二种方式:
确定连续m次迭代过程中,每一次迭代过程中样本数据的损失与前一次迭代过程中样本数据的损失之间的差值,满足预设的损失差值范围时,确定达到预设的收敛条件。
其中,样本数据的损失即为:对子片段预测的标签与标注的标签之间的误差。
预设的损失差值范围可以根据经验自行设定,例如,可以设置为1%~5%,本发明实施例对此不作限定。
第三种方式:
确定当前迭代次数达到预设的最大迭代次数时,确定达到预设的收敛条件。
其中,预设的最大迭代次数可以根据经验自行设定,例如,可以设置为50次,本发明实施例对此不作限定。
S15、将所述分类结果为指定类别的语句子片段按顺序重新组合,获得重组后文本。
具体实施时,智能对话系统将各语句中分类结果为指定类别的语句子片段按顺序重新组合,获得重组后文本,其中,指定类别的语句子片段为有意义的语句子片段。
S16、对所述重组后文本进行意图识别。
具体实施时,智能对话系统根据预设意图识别模型对所述重组后文本进行意图识别,本发明实施例中,对所述意图识别模型不作限定。
本发明实施例提供的意图识别方法,智能对话系统接收待识别文本信息,将所述文本中的各个语句分别切分为具有不同语义的语句子片段,提取各个语句子片段的关键词,将每一语句子片段和从所述语句子片段中提取的关键词分别输入文本分类模型中进行分类,获得分类结果,将各语句中分类结果为指定类别的语句子片段按顺序重新组合,获得重组后文本,进而,对重组后文本进行意图识别,依据本发明实施例提供的意图识别方法,首先将待识别文本的每一语句按照语义切分成若干语句子片段,并根据文本分类模型对这些语句子片段进行分类,将指定类别的语句子片段按顺序进程重组,对重组后文本进行意图识别,由于仅对指定类别的语句子片段重组后的文本进行意图识别,有效提高了文本意图识别的效率,并且,在对一个语句分词的语句子片段进行分类时,加入了关键词识别,提高了文本分类的准确性,进而提高了文本意图识别的准确率。
基于同一发明构思,本发明实施例还提供了一种意图识别装置,由于上述意图识别装置解决问题的原理与意图识别方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图8所示,其为本发明实施例提供的意图识别装置的结构示意图,可以包括:
接收单元81,用于接收待识别文本信息;
切分单元82,用于将所述文本中的各个语句分别切分为具有不同语义的语句子片段;
关键词提取单元83,用于提取各个语句子片段的关键词;
分类单元84,用于针对每一语句子片段,将所述语句子片段和从所述语句子片段中提取的关键词输入文本分类模型中进行分类,获得分类结果;
重组单元85,用于将各语句中分类结果为指定类别的语句子片段按顺序重新组合,获得重组后文本;
意图识别单元86,用于对所述重组后文本进行意图识别。
较佳地,所述切分单元82,具体用于针对所述文本中的每一语句,利用语义切分模型对所述语句进行切分,获得具有不同语义的语句子片段,所述语义切分模型是根据按照语义进行序列标注后的多个样本语句对第一预设训练模型进行训练获得的。
较佳地,所述文本分类模型是根据多个样本语句的子片段和子片段中的关键词对第二预设训练模型进行训练获得的,所述样本语句的子片段是根据语义对所述样本语句进行切分获得的。
较佳地,所述关键词提取单元83,具体用于利用关键词提取模型提取各个语句子片段的关键词,所述关键词提取模型是根据多个样本语句的子片段对第三预设训练模型进行训练获得的。
可选地,所述切分单元82,还用于在接收待识别文本信息之前,通过以下步骤进行训练获得语义切分模型:获取样本语句;针对每一样本语句,将所述样本语句根据语义进行序列标注,对所述样本语句的每个字标注标签;将所述每一样本语句作为第一样本数据输入到第一预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差;根据所述标签误差,对所述第一预设训练模型进行迭代机器训练;将训练结束时的所述第一预设训练模型,作为所述语义切分模型;
可选地,所述关键词提取单元83,还用于在接收待识别文本信息之前,通过以下步骤进行训练获得关键词提取模型:获取样本语句;针对每一样本语句,将所述样本语句根据语义切分成N个子片段,N为大于等于1的整数;针对每一子片段,根据关键词将所述子片段进行序列标注,对所述子片段的每个字标注标签;将所述每一子片段作为第二样本数据输入到第三预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差;根据所述标签误差,对所述第三预设训练模型进行迭代机器训练;将训练结束时的所述第三预设训练模型,作为所述关键词提取模型;
可选地,所述分类单元84,还用于在接收待识别文本信息之前,通过以下步骤进行训练获得文本分类模型:获取样本语句;针对每一样本语句,将所述样本语句根据语义切分成N个子片段,N为大于等于1的整数;针对每一子片段,根据预设规则对所述子片段标注类别标签;提取所述子片段中的关键词;将所述每一子片段和所述每一子片段的关键词作为第三样本数据输入到第二预设训练模型,预测所述子片段的类别标签,并确定预测的类别标签与标注的类别标签之间的类别标签误差;根据所述类别标签误差,对所述第二预设训练模型进行迭代机器训练;将训练结束时的所述第二预设训练模型,作为所述文本分类模型。
较佳地,所述第一预设训练模型包含字向量识别模型和序列标注模型;
所述切分单元82,具体用于确定所述样本语句中的语义切分点,所述语义切分点表征语义发生转折的点;将各语义切分点对应的字标注第一标签;将所述各语义切分点对应的字以外的其它字标注第二标签;
所述切分单元82,具体用于基于所述样本语句和所述字向量识别模型,获得所述样本语句的每个字的字向量;将所述每个字的字向量输入到所述序列标注模型,预测所述每个字的标签;针对所述样本语句的每个字,根据预测的标签与标注的标签确定标签误差;
所述切分单元82,具体用于根据所述标签误差对所述字向量识别模型和所述序列标注模型中包含的各个参数进行调整,以更新所述语义切分模型。
较佳地,所述第三预设训练模型包含字向量识别模型和序列标注模型;
所述关键词提取单元83,具体用于根据预设关键词与标签的对应关系,确定所述子片段中的关键词对应的第三标签;将所述子片段中的所述关键词标注所述第三标签;将所述子片段中除关键词以外的其它字标注第四标签;
所述关键词提取单元83,具体用于基于所述子片段和所述字向量识别模型,获得所述子片段的每个字的字向量;将所述每个字的字向量输入到所述序列标注模型,预测所述每个字的标签;针对所述子片段的每个字,根据预测的标签与标注的标签确定标签误差;
所述关键词提取单元83,具体用于根据所述标签误差对所述字向量识别模型和所述序列标注模型中包含的各个参数进行调整,以更新所述关键词提取模型。
较佳地,所述第二预设训练模型包括句子向量识别模型和分类模型;
所述分类单元,具体用于根据所述样本语句对应的语境及上下文信息确定所述子片段所属的类别;根据预设类别与类别标签的对应关系,确定所述子片段所属的类别的类别标签;对所述子片段标注所述类别标签;
所述分类单元84,具体用于针对每一子片段,基于所述子片段的关键词和预设词向量识别模型,获得所述关键词的词向量;基于所述子片段和所述句子向量识别模型,获得所述子片段的向量;将所述子片段的向量和所述关键词的词向量进行融合,将融合后的向量输入到所述分类模型,预测所述子片段的类别标签;根据对所述子片段标注的类别标签与预测的类别标签,确定所述子片段的类别标签误差;
所述分类单元84,具体用于根据所述类别标签误差对所述句子向量识别模型和所述分类模型中包含的各个参数进行调整,以更新所述文本分类模型。
本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的意图识别程序,所述意图识别程序被所述处理器执行时实现本发明所述的意图识别方法的步骤。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有意图识别程序,所述意图识别程序被处理器执行时实现本发明所述的意图识别方法中的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (11)
1.一种意图识别方法,其特征在于,包括:
接收待识别文本信息;
将所述文本中的各个语句分别切分为具有不同语义的语句子片段;
提取各个语句子片段的关键词;
将所述各个语句子片段和从所述各个语句子片段中提取的关键词输入文本分类模型中进行分类,获得分类结果;
将所述分类结果为指定类别的语句子片段按顺序重新组合,获得重组后文本;
对所述重组后文本进行意图识别。
2.如权利要求1所述的方法,其特征在于,将所述文本中的各个语句分别切分为具有不同语义的语句子片段,具体包括:
针对所述文本中的每一语句,利用语义切分模型对所述语句进行切分,获得具有不同语义的语句子片段,所述语义切分模型是根据按照语义进行序列标注后的多个样本语句对第一预设训练模型进行训练获得的。
3.如权利要求1所述的方法,其特征在于,
所述文本分类模型是根据多个样本语句的子片段和子片段中的关键词对第二预设训练模型进行训练获得的,所述样本语句的子片段是根据语义对所述样本语句进行切分获得的。
4.如权利要求1所述的方法,其特征在于,
所述提取各个语句子片段的关键词,具体包括:
利用关键词提取模型提取各个语句子片段的关键词,所述关键词提取模型是根据多个样本语句的子片段对第三预设训练模型进行训练获得的。
5.如权利要求1-4任一项所述的方法,其特征在于,在接收待识别文本信息之前,还包括:
获取样本语句;
针对每一样本语句,将所述样本语句根据语义进行序列标注,对所述样本语句的每个字标注标签;
将所述每一样本语句作为第一样本数据输入到第一预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差;
根据所述标签误差,对所述第一预设训练模型进行迭代机器训练;
将训练结束时的所述第一预设训练模型,作为所述语义切分模型;和/或
获取样本语句;
针对每一样本语句,将所述样本语句根据语义切分成N个子片段,N为大于等于1的整数;
针对每一子片段,根据关键词将所述子片段进行序列标注,对所述子片段的每个字标注标签;
将所述每一子片段作为第二样本数据输入到第三预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差;
根据所述标签误差,对所述第三预设训练模型进行迭代机器训练;
将训练结束时的所述第三预设训练模型,作为所述关键词提取模型;和/或
获取样本语句;
针对每一样本语句,将所述样本语句根据语义切分成N个子片段,N为大于等于1的整数;
针对每一子片段,根据预设规则对所述子片段标注类别标签;
提取所述子片段中的关键词;
将所述每一子片段和所述每一子片段的关键词作为第三样本数据输入到第二预设训练模型,预测所述子片段的类别标签,并确定预测的类别标签与标注的类别标签之间的类别标签误差;
根据所述类别标签误差,对所述第二预设训练模型进行迭代机器训练;
将训练结束时的所述第二预设训练模型,作为所述文本分类模型。
6.如权利要求5所述的方法,其特征在于,所述第一预设训练模型包含字向量识别模型和序列标注模型;
所述将所述样本语句根据语义进行序列标注,对所述样本语句的每个字标注标签,具体包括:
确定所述样本语句中的语义切分点,所述语义切分点表征语义发生转折的点;
将各语义切分点对应的字标注第一标签;
将所述各语义切分点对应的字以外的其它字标注第二标签;
所述将所述每一样本语句作为第一样本数据输入到第一预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差,具体包括:
基于所述样本语句和所述字向量识别模型,获得所述样本语句的每个字的字向量;
将所述每个字的字向量输入到所述序列标注模型,预测所述每个字的标签;
针对所述样本语句的每个字,根据预测的标签与标注的标签确定标签误差;
所述根据所述标签误差,对所述第一预设训练模型进行迭代机器训练,具体包括:
根据所述标签误差对所述字向量识别模型和所述序列标注模型中包含的各个参数进行调整,以更新所述语义切分模型。
7.如权利要求5所述的方法,其特征在于,所述第三预设训练模型包含字向量识别模型和序列标注模型;
所述根据关键词将所述子片段进行序列标注,对所述子片段的每个字标注标签,具体包括:
根据预设关键词与标签的对应关系,确定所述子片段中的关键词对应的第三标签;
将所述子片段中的所述关键词标注所述第三标签;
将所述子片段中除关键词以外的其它字标注第四标签;
所述将所述每一子片段作为第二样本数据输入到第三预设训练模型,预测所述每个字的标签,并确定预测的标签与标注的标签之间的标签误差,具体包括:
基于所述子片段和所述字向量识别模型,获得所述子片段的每个字的字向量;
将所述每个字的字向量输入到所述序列标注模型,预测所述每个字的标签;
针对所述子片段的每个字,根据预测的标签与标注的标签确定标签误差;
所述根据所述标签误差,对所述第三预设训练模型进行迭代机器训练,具体包括:
根据所述标签误差对所述字向量识别模型和所述序列标注模型中包含的各个参数进行调整,以更新所述关键词提取模型。
8.如权利要求5所述的方法,其特征在于,所述第二预设训练模型包括句子向量识别模型和分类模型;
所述根据预设规则对所述子片段标注类别标签,具体包括:
根据所述样本语句对应的语境及上下文信息确定所述子片段所属的类别;
根据预设类别与类别标签的对应关系,确定所述子片段所属类别的类别标签;
对所述子片段标注所述类别标签;
所述将所述每一子片段和所述每一子片段的关键词作为第三样本数据输入到第二预设训练模型,预测所述子片段的类别标签,并确定预测的类别标签与标注的类别标签之间的类别标签误差,具体包括:
针对每一子片段,基于所述子片段的关键词和预设词向量识别模型,获得所述关键词的词向量;
基于所述子片段和所述句子向量识别模型,获得所述子片段的向量;
将所述子片段的向量和所述关键词的词向量进行融合,将融合后的向量输入到所述分类模型,预测所述子片段的类别标签;
根据对所述子片段标注的类别标签与预测的类别标签,确定所述子片段的类别标签误差;
所述根据所述类别标签误差,对所述第二预设训练模型进行迭代机器训练,具体包括:
根据所述类别标签误差对所述句子向量识别模型和所述分类模型中包含的各个参数进行调整,以更新所述文本分类模型。
9.一种意图识别装置,其特征在于,包括:
接收单元,用于接收待识别文本信息;
切分单元,用于将所述文本中的各个语句分别切分为具有不同语义的语句子片段;
关键词提取单元,用于提取各个语句子片段的关键词;
分类单元,用于针对每一语句子片段,将所述语句子片段和从所述语句子片段中提取的关键词输入文本分类模型中进行分类,获得分类结果;
重组单元,用于将各语句中分类结果为指定类别的语句子片段按顺序重新组合,获得重组后文本;
意图识别单元,用于对所述重组后文本进行意图识别。
10.一种电子设备,其特征在于,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的意图识别程序,所述意图识别程序被所述处理器执行时实现如权利要求1至8中任一项所述的意图识别方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有意图识别程序,所述意图识别程序被处理器执行时实现如权利要求1至8中任一项所述的意图识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010591979.XA CN111737989A (zh) | 2020-06-24 | 2020-06-24 | 一种意图识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010591979.XA CN111737989A (zh) | 2020-06-24 | 2020-06-24 | 一种意图识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737989A true CN111737989A (zh) | 2020-10-02 |
Family
ID=72651134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010591979.XA Pending CN111737989A (zh) | 2020-06-24 | 2020-06-24 | 一种意图识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737989A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597289A (zh) * | 2020-12-24 | 2021-04-02 | 北京明略软件系统有限公司 | 问询信息分类方法、模型训练方法、装置和电子设备 |
CN112712804A (zh) * | 2020-12-23 | 2021-04-27 | 哈尔滨工业大学(威海) | 语音识别方法、系统、介质、计算机设备、终端及应用 |
CN112818996A (zh) * | 2021-01-29 | 2021-05-18 | 青岛海尔科技有限公司 | 指令识别方法和装置、存储介质及电子设备 |
CN113052487A (zh) * | 2021-04-12 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 评价文本的处理方法、装置以及计算机设备 |
CN113139368A (zh) * | 2021-05-18 | 2021-07-20 | 清华大学 | 一种文本编辑方法及系统 |
CN113392641A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和设备 |
CN113642334A (zh) * | 2021-08-11 | 2021-11-12 | 科大讯飞股份有限公司 | 意图识别方法、装置、电子设备和存储介质 |
CN114238566A (zh) * | 2021-12-10 | 2022-03-25 | 零犀(北京)科技有限公司 | 一种语音或文本数据的数据增强方法及装置 |
CN115658891A (zh) * | 2022-10-18 | 2023-01-31 | 支付宝(杭州)信息技术有限公司 | 一种意图识别的方法、装置、存储介质及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880645A (zh) * | 2012-08-24 | 2013-01-16 | 上海云叟网络科技有限公司 | 语义化的智能搜索方法 |
CN107315737A (zh) * | 2017-07-04 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 一种语义逻辑处理方法及系统 |
CN107679234A (zh) * | 2017-10-24 | 2018-02-09 | 上海携程国际旅行社有限公司 | 客服信息提供方法、装置、电子设备、存储介质 |
CN108446266A (zh) * | 2018-02-01 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种语句拆分的方法、装置及设备 |
CN110069623A (zh) * | 2017-12-06 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置、存储介质和计算机设备 |
CN110609997A (zh) * | 2018-06-15 | 2019-12-24 | 北京百度网讯科技有限公司 | 生成文本的摘要的方法和装置 |
US20200065389A1 (en) * | 2017-10-10 | 2020-02-27 | Tencent Technology (Shenzhen) Company Limited | Semantic analysis method and apparatus, and storage medium |
CN110853649A (zh) * | 2019-11-05 | 2020-02-28 | 集奥聚合(北京)人工智能科技有限公司 | 基于智能语音技术的标签提取方法、系统、设备及介质 |
CN111079405A (zh) * | 2019-11-29 | 2020-04-28 | 微民保险代理有限公司 | 文本信息识别方法、装置、存储介质和计算机设备 |
CN111191456A (zh) * | 2018-11-15 | 2020-05-22 | 零氪科技(天津)有限公司 | 一种使用序列标注进行识别文本分段的方法 |
-
2020
- 2020-06-24 CN CN202010591979.XA patent/CN111737989A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880645A (zh) * | 2012-08-24 | 2013-01-16 | 上海云叟网络科技有限公司 | 语义化的智能搜索方法 |
CN107315737A (zh) * | 2017-07-04 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 一种语义逻辑处理方法及系统 |
US20200065389A1 (en) * | 2017-10-10 | 2020-02-27 | Tencent Technology (Shenzhen) Company Limited | Semantic analysis method and apparatus, and storage medium |
CN107679234A (zh) * | 2017-10-24 | 2018-02-09 | 上海携程国际旅行社有限公司 | 客服信息提供方法、装置、电子设备、存储介质 |
CN110069623A (zh) * | 2017-12-06 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置、存储介质和计算机设备 |
CN108446266A (zh) * | 2018-02-01 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种语句拆分的方法、装置及设备 |
CN110609997A (zh) * | 2018-06-15 | 2019-12-24 | 北京百度网讯科技有限公司 | 生成文本的摘要的方法和装置 |
CN111191456A (zh) * | 2018-11-15 | 2020-05-22 | 零氪科技(天津)有限公司 | 一种使用序列标注进行识别文本分段的方法 |
CN110853649A (zh) * | 2019-11-05 | 2020-02-28 | 集奥聚合(北京)人工智能科技有限公司 | 基于智能语音技术的标签提取方法、系统、设备及介质 |
CN111079405A (zh) * | 2019-11-29 | 2020-04-28 | 微民保险代理有限公司 | 文本信息识别方法、装置、存储介质和计算机设备 |
Non-Patent Citations (3)
Title |
---|
TUR, G等: "SENTENCE SIMPLIFICATION FOR SPOKEN LANGUAGE UNDERSTANDING", 《IEEE》, 21 December 2011 (2011-12-21) * |
王志宏;过弋;: "基于词句重要性的中文专利关键词自动抽取研究", 情报理论与实践, no. 09, 8 June 2018 (2018-06-08) * |
迟海洋;严馨;周枫;徐广义;张磊;: "基于BERT-BiGRU-Attention的在线健康社区用户意图识别方法", 河北科技大学学报, no. 03, 15 June 2020 (2020-06-15) * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392641A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和设备 |
CN112712804A (zh) * | 2020-12-23 | 2021-04-27 | 哈尔滨工业大学(威海) | 语音识别方法、系统、介质、计算机设备、终端及应用 |
CN112712804B (zh) * | 2020-12-23 | 2022-08-26 | 哈尔滨工业大学(威海) | 语音识别方法、系统、介质、计算机设备、终端及应用 |
CN112597289A (zh) * | 2020-12-24 | 2021-04-02 | 北京明略软件系统有限公司 | 问询信息分类方法、模型训练方法、装置和电子设备 |
CN112597289B (zh) * | 2020-12-24 | 2024-03-01 | 北京明略软件系统有限公司 | 问询信息分类方法、模型训练方法、装置和电子设备 |
CN112818996A (zh) * | 2021-01-29 | 2021-05-18 | 青岛海尔科技有限公司 | 指令识别方法和装置、存储介质及电子设备 |
CN113052487A (zh) * | 2021-04-12 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 评价文本的处理方法、装置以及计算机设备 |
CN113139368A (zh) * | 2021-05-18 | 2021-07-20 | 清华大学 | 一种文本编辑方法及系统 |
CN113642334A (zh) * | 2021-08-11 | 2021-11-12 | 科大讯飞股份有限公司 | 意图识别方法、装置、电子设备和存储介质 |
CN113642334B (zh) * | 2021-08-11 | 2023-12-05 | 科大讯飞股份有限公司 | 意图识别方法、装置、电子设备和存储介质 |
CN114238566A (zh) * | 2021-12-10 | 2022-03-25 | 零犀(北京)科技有限公司 | 一种语音或文本数据的数据增强方法及装置 |
CN115658891A (zh) * | 2022-10-18 | 2023-01-31 | 支付宝(杭州)信息技术有限公司 | 一种意图识别的方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737989A (zh) | 一种意图识别方法、装置、设备及存储介质 | |
CN110232114A (zh) | 语句意图识别方法、装置及计算机可读存储介质 | |
CN110096570A (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN110457689B (zh) | 语义处理方法及相关装置 | |
CN111694924A (zh) | 一种事件抽取方法和系统 | |
CN109446885B (zh) | 一种基于文本的元器件识别方法、系统、装置和存储介质 | |
CN111191275A (zh) | 敏感数据识别方法、系统及其装置 | |
CN112732871A (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN111737990B (zh) | 一种词槽填充方法、装置、设备及存储介质 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN112988960A (zh) | 一种对话状态追踪方法、装置、设备及存储介质 | |
CN111078546A (zh) | 一种表达页面特征的方法和电子设备 | |
CN114004231A (zh) | 一种中文专词抽取方法、系统、电子设备及存储介质 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN117648093A (zh) | 基于大模型和自定制需求模板的rpa流程自动化生成方法 | |
CN113673225A (zh) | 中文句子相似性判别方法、装置、计算机设备和存储介质 | |
CN116644183B (zh) | 文本分类方法、装置及存储介质 | |
CN112380861A (zh) | 模型训练方法、装置及意图识别方法、装置 | |
CN115563278A (zh) | 一种句子文本的问题分类处理方法及装置 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN114580397A (zh) | 一种谩骂评论的检测方法及系统 | |
CN114116975A (zh) | 一种多意图识别方法及系统 | |
CN113849644A (zh) | 文本分类模型的配置方法、装置、计算机设备及存储介质 | |
CN113393848A (zh) | 用于训练说话人识别模型的方法、装置、电子设备和可读存储介质 | |
CN117076596B (zh) | 应用人工智能的数据存储方法、装置及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |