CN113268578A - 文本语义的识别方法、装置、计算机设备及存储介质 - Google Patents
文本语义的识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113268578A CN113268578A CN202110703198.XA CN202110703198A CN113268578A CN 113268578 A CN113268578 A CN 113268578A CN 202110703198 A CN202110703198 A CN 202110703198A CN 113268578 A CN113268578 A CN 113268578A
- Authority
- CN
- China
- Prior art keywords
- sentence
- recognized
- semantic
- current
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本语义的识别方法,应用于人工智能技术领域,用于解决在多主题内容穿插讨论的场景中,无法对用户讨论的主题进行合理划分的技术问题。本发明提供的方法包括:获取当前待识别的语句、上文语句和下文语句;将获取的三种语句分别输入预先训练好的语义解析模型,得到对应的第一特征向量、第二特征向量和第三特征向量;将这三个特征向量进行加和处理,将得到的第四特征向量输入至语义解析模型的全连接层,预测当前待识别的语句是否为主题语义起始句;当该当前待识别的语句不为最后一个语句时,将当前语句的下一个语句作为当前待识别的语句,循环预测该当前待识别的语句是否为主题语义起始句,直到当前语句为该文档的最后一个语句。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本语义的识别方法、装置、计算机设备及存储介质。
背景技术
在用户与智能机器人的智能问答的场景、或者代理人用户与客户的聊天场景中,为了解用户关心的主题,需要对聊天生成的文本文档进行主题识别和文档切分,以了解用户真正关心的问题,以便对该问题的处理方式进行优化。
目前对文本文档进行主题提取的方法一般是对文本文档中包括的语句进行逐步框选,通过主题提取模型提取框选的文本文档中的主题,当对框选的不同文本文档识别出的主题相同时,将框选的不同文本文档归为一类,如果对框选的不同文本文档识别出的主题不相同,则表示需要对文本文档进行切分。
而在现实的聊天场景中,我们发现不论是用户与智能机器人的智能问答,还是代理人用户与客户的问答中,用户可能同时会开展两个主题甚至多个主题的内容进行讨论,特别是在多人聊天的场景中,不同的用户经常穿插着两三个主题同时进行讨论,如果通过现有手段对框选的不同文本文档进行主题识别,容易出现主题识别不准确或者文本文档切分不合理的现象,无法对用户讨论的主题进行合理划分。
发明内容
本发明实施例提供一种文本语义的识别方法、装置、计算机设备及存储介质,以解决在多主题内容穿插讨论的场景中,无法对用户讨论的主题进行合理划分的技术问题。
一种文本语义的识别方法,该方法包括:
获取当前待识别的语句,通过预设的窗口长度获取该当前待识别的语句的上文语句和下文语句;
将该上文语句、当前待识别的语句以及该下文语句分别输入预先训练好的语义解析模型,得到与该上文语句相对应的第一特征向量、与该当前待识别的语句相对应的第二特征向量和与该下文语句相对应的第三特征向量;
将该第一特征向量、该第二特征向量和该第三特征向量进行加和处理,得到第四特征向量;
将该第四特征向量输入至该语义解析模型的全连接层,通过该全连接层输出该当前待识别的语句是否为主题语义起始句的预测结果;
判断该当前待识别的语句是否为文档的最后一个语句;
当该当前待识别的语句不为该文档的最后一个语句时,将该当前待识别的语句的下一个语句作为该当前待识别的语句,循环该通过预设的窗口长度获取该当前待识别的语句的上文语句和下文语句至该通过该全连接层输出该当前待识别的语句是否为主题语义起始句的预测结果的步骤,直到该当前待识别的语句为该文档的最后一个语句。
一种文本语义的识别装置,该装置包括:
语句获取模块,用于获取当前待识别的语句,通过预设的窗口长度获取该当前待识别的语句的上文语句和下文语句;
第一输入模块,用于将该上文语句、当前待识别的语句以及该下文语句分别输入预先训练好的语义解析模型,得到与该上文语句相对应的第一特征向量、与该当前待识别的语句相对应的第二特征向量和与该下文语句相对应的第三特征向量;
加和处理模块,用于将该第一特征向量、该第二特征向量和该第三特征向量进行加和处理,得到第四特征向量;
第二输入模块,用于将该第四特征向量输入至该语义解析模型的全连接层,通过该全连接层输出该当前待识别的语句是否为主题语义起始句的预测结果;
判断模块,用于判断该当前待识别的语句是否为文档的最后一个语句;
循环模块,用于当该当前待识别的语句不为该文档的最后一个语句时,将该当前待识别的语句的下一个语句作为该当前待识别的语句,循环该通过预设的窗口长度获取该当前待识别的语句的上文语句和下文语句至该通过该全连接层输出该当前待识别的语句是否为主题语义起始句的预测结果的步骤,直到该当前待识别的语句为该文档的最后一个语句。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本语义的识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本语义的识别方法的步骤。
本发明提出的文本语义的识别方法、装置、计算机设备及存储介质,通过获取当前待识别的语句,通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句,将所述上文语句、当前待识别的语句以及所述下文语句分别输入预先训练好的语义解析模型,得到与所述上文语句相对应的第一特征向量、与所述当前待识别的语句相对应的第二特征向量和与所述下文语句相对应的第三特征向量,将所述第一特征向量、所述第二特征向量和所述第三特征向量进行加和处理,得到第四特征向量,然后将所述第四特征向量输入至所述语义解析模型的全连接层,通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果,当所述当前待识别的语句不为所述文档的最后一个语句时,将所述当前待识别的语句的下一个语句作为所述当前待识别的语句,循环所述通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句至所述通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果的步骤,直到所述当前待识别的语句为所述文档的最后一个语句,从而实现对文档中主题语义起始句进行智能识别,便于用户在后期查阅文档时,快速地找到对应的主题,也有利于后期对该文档进行切分。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文本语义的识别方法的一应用环境示意图;
图2是本发明一实施例中文本语义的识别方法的一流程图;
图3是本发明另一实施例中文本语义的识别方法的一流程图;
图4是本发明一实施例中样本聊天语句的标注示意图;
图5是本发明一实施例中语义解析模型的网络结构示意图;
图6是本发明一实施例中文本语义的识别装置的结构示意图;
图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的文本语义的识别方法,可应用在如图1的应用环境中,其中,该计算机设备通过网络与服务器进行通信。其中,该计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。该服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种文本语义的识别方法,以该方法应用在图1中的计算机设备为例进行说明,包括如下步骤S101至S106。
S101、获取当前待识别的语句,通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句。
在其中一个实施例中,框选所述当前待识别的语句的上文语句的窗口长度与框选所述当前待识别的语句的下文语句的窗口长度相同。
其中,通过预先设置窗口长度使得框选所述当前待识别的语句的上文语句的窗口长度与框选所述当前待识别的语句的下文语句的窗口长度相同,有利于在后续步骤中通过语义解析模型分析该当前待识别的语句的语义与上位语义更相关还是与下文语义更相关时,得出更为准确的预测结果。
进一步地,框选所述当前待识别的语句的上文语句的窗口长度与框选所述当前待识别的语句的下文语句的窗口长度均为3。
可以理解的是,当该当前待识别的语句为文档的第一个语句时,默认该当前待识别的语句为主题语义的起始句,其中,该当前待识别的语句的上文语句为空。当该当前待识别的语句为文档的最后一个语句时,该当前待识别的语句的下文语句为空。
在其中一个实施例中,所述待识别的语句可以是聊天记录,包括但不限于机器人智能问答记录、不同用户之间的聊天记录等等。
S102、将所述上文语句、当前待识别的语句以及所述下文语句分别输入预先训练好的语义解析模型,得到与所述上文语句相对应的第一特征向量、与所述当前待识别的语句相对应的第二特征向量和与所述下文语句相对应的第三特征向量。
在其中一个实施例中,所述语义解析模型可以选用BERT(Bidirectional EncoderRepresentations from Transformers)语言表示模型,它的主要模型结构通过trasnformer模型的encoder堆叠而成。BERT的基础建立在transformer之上,拥有强大的语言表征能力和特征提取能力。
在其中一个实施例中,所述语义解析模型为BERT语言表示模型,训练所述语义解析模型的步骤包括:
获取样本文档中的样本聊天语句,所述样本文档中的每条所述样本聊天语句均携带有是否为主题语义起始句的标注;
将所述样本聊天语句输入至待训练的BERT语言表示模型;
将所述样本聊天语句携带的是否为主题语义起始句的标注作为目标,对所述BERT语言表示模型进行训练;
当所述BERT语言表示模型的损失函数收敛时,得到训练好的所述语义解析模型。
图4是本发明一实施例中样本聊天语句的标注示意图,在其中一个实施例中,标注的样本聊天语句如图4所示,其中,每一个矩形框表示一条语句,“1”表示是主题语义起始句,“0”表示不是主题语义起始句。
S103、将所述第一特征向量、所述第二特征向量和所述第三特征向量进行加和处理,得到第四特征向量。
可以理解的是,该第四特征向量通过该第一特征向量、第二特征向量和第三特征向量相加得到。图5是本发明一实施例中语义解析模型的网络结构示意图,其具体的处理过程参照图5所示,其中,通过该BERT语言表示模型的encoder编码层可以得到该第一特征向量、第二特征向量和第三特征向量。如图5所示,mid-sentence表示该当前待识别的语句,left-context of size K表示通过长度为K的窗口框选的上文语句,right-context ofsize K表示通过长度为K的窗口框选的下文语句。
S104、将所述第四特征向量输入至所述语义解析模型的全连接层,通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果。
在其中一个实施例中,所述主题可以根据用户询问的业务类型进行划分,例如保险理赔类、保险预购类、业务查询类等等,也可以根据学术主题进行划分,例如数学问题、英语问题、语文问题等等。
当所述语义解析模型为BERT语言表示模型时,如图5所示,图5中Dense表示该BERT语言表示模型的全连接层,该BERT语言表示模型的encoder编码层连接所述全连接层。
可以理解的是,该语义解析模型的全连接层的输出结果包括“0”和“1”,“0”表示不为主题语义起始句,“1”表示为主题语义起始句。
S105、判断所述当前待识别的语句是否为文档的最后一个语句。
当所述当前待识别的语句为文档的最后一个语句时,表示整篇文档已经归类结束,否则,表示还需要对文档中的其他语句进行预测和判断。
S106、当所述当前待识别的语句不为所述文档的最后一个语句时,将所述当前待识别的语句的下一个语句作为所述当前待识别的语句,循环所述通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句至所述通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果的步骤,直到所述当前待识别的语句为所述文档的最后一个语句。
可以理解的是,所述当前待识别的语句的下一个语句表示与所述当前语句在时间线上相邻的后一个语句。所述时间线上的时间表示用户或者智能机器人发送该聊天语句的时间。
图3是本发明另一实施例中文本语义的识别方法的一流程图,在其中一个实施例中,如图3所示,在所述步骤S106的步骤之后,所述方法还包括以下步骤S301和S302:
S301、获取所述文档中预测结果为主题语义起始句的所有语句;
S302、根据所述主题语义起始句对所述文档进行切分,得到与各所述主题语义起始句相对应的语句单元。
可以理解的是,所述语句单元包括至少一个语句,对所述文档进行切分时,以所述主题语义起始句为所述语句单元的第一句,以与下一个主题语义起始句在时间线上向上相邻的非主题语义起始句为所述语句单元的最后一句,对所述文档进行切分。
本实施例通过对文档进行切分,可以根据文档中不同语句的主题语义是否相同对文档中的聊天语句进行分类。
进一步地,为了更好的对该文档中属于不同主题语义的语句进行归类,在所述根据所述主题语义起始句对所述文档进行切分的步骤之后,如图3所示,所述方法还包括以下步骤S303至S305:
S303、将各所述语句单元分别输入至预先训练好的主题识别模型,得到每个所述语句单元所属的主题;
S304、判断各所述主题中是否存在相同的主题;
S305、若各所述主题中存在相同的主题,则将主题相同的所述语句单元中包含的语句进行合并。
在其中一个实施例中,当所述文档为机器人智能问答的聊天记录的文档或用户与人工客服之间的业务咨询的聊天记录的文档时,即表示在先知道各语句单元可能所属的主题,只可能是预先设定的业务类型的主题,在这种情况下只需要对有效的业务相关的主题进行识别时,所述主题识别模型可以选用BERT语言表示模型或者textcnn模型。
当该主题识别模型选用BERT语言表示模型时,与上述语义解析模型不同的是,该主题识别模型的训练方式与该语义解析模型不同的训练方式不同。训练该主题识别模型的训练样本为包括至少一个样本语句的主题样本文档,所述主题样本文档携带有主题标识,该主题标识用于标记该主题样本文档的真实主题,可以将主题样本文档携带的主题标识作为训练目标对该BERT语言表示模型进行训练。
当该主题识别模型选用textcnn模型时,在对该textcnn模型进行训练时与上述主题识别模型选用BERT语言表示模型时的训练方法相似,训练样本为包括至少一个样本语句的主题样本文档,所述主题样本文档携带有主题标识,将主题样本文档携带的主题标识作为训练目标对该textcnn模型进行训练。
在其中一个实施例中,所述将主题相同的所述语句单元中包含的语句进行合并的步骤进一步包括:
根据所述语句的发送时刻,按照所述发送时刻越晚越靠后的规则对主题相同的所述语句单元中包含的语句依次进行合并。
本实施例通过对主题相同的所述语句单元中包含的语句进行合并使得可以对文档进行更加合理的归类,便于用于在查看聊天记录时,一目了然地了解对于同一主题讨论的内容,节约了用户查找属于同一主题的聊天内容的时间。
本实施例通过获取当前待识别的语句,通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句,将所述上文语句、当前待识别的语句以及所述下文语句分别输入预先训练好的语义解析模型,得到与所述上文语句相对应的第一特征向量、与所述当前待识别的语句相对应的第二特征向量和与所述下文语句相对应的第三特征向量,将所述第一特征向量、所述第二特征向量和所述第三特征向量进行加和处理,得到第四特征向量,然后将所述第四特征向量输入至所述语义解析模型的全连接层,通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果,当所述当前待识别的语句不为所述文档的最后一个语句时,将所述当前待识别的语句的下一个语句作为所述当前待识别的语句,循环所述通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句至所述通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果的步骤,直到所述当前待识别的语句为所述文档的最后一个语句,从而实现对文档中主题语义起始句进行智能识别,便于用户在后期查阅文档时,快速地找到对应的主题,也有利于后期对该文档进行切分。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文本语义的识别装置,该文本语义的识别装置与上述实施例中文本语义的识别方法一一对应。如图6所示,该文本语义的识别装置100包括语句获取模块11、第一输入模块12、加和处理模块13、第二输入模块14、判断模块15和循环模块16。各功能模块详细说明如下:
语句获取模块11,用于获取当前待识别的语句,通过预设的窗口长度获取该当前待识别的语句的上文语句和下文语句。
可以理解的是,当该当前待识别的语句为文档的第一个语句时,默认该当前待识别的语句为主题语义的起始句,其中,该当前待识别的语句的上文语句为空。当该当前待识别的语句为文档的最后一个语句时,该当前待识别的语句的下文语句为空。
在其中一个实施例中,所述待识别的语句可以是聊天记录,包括但不限于机器人智能问答记录、不同用户之间的聊天记录等等。
第一输入模块12,用于将该上文语句、当前待识别的语句以及该下文语句分别输入预先训练好的语义解析模型,得到与该上文语句相对应的第一特征向量、与该当前待识别的语句相对应的第二特征向量和与该下文语句相对应的第三特征向量。
加和处理模块13,用于将该第一特征向量、该第二特征向量和该第三特征向量进行加和处理,得到第四特征向量。
第二输入模块14,用于将该第四特征向量输入至该语义解析模型的全连接层,通过该全连接层输出该当前待识别的语句是否为主题语义起始句的预测结果。
在其中一个实施例中,所述主题可以根据用户询问的业务类型进行划分,例如保险理赔类、保险预购类、业务查询类等等,也可以根据学术主题进行划分,例如数学问题、英语问题、语文问题等等。
判断模块15,用于判断该当前待识别的语句是否为文档的最后一个语句。
循环模块16,用于当该当前待识别的语句不为该文档的最后一个语句时,将该当前待识别的语句的下一个语句作为该当前待识别的语句,循环该通过预设的窗口长度获取该当前待识别的语句的上文语句和下文语句至该通过该全连接层输出该当前待识别的语句是否为主题语义起始句的预测结果的步骤,直到该当前待识别的语句为该文档的最后一个语句。
在其中一个实施例中,框选该当前待识别的语句的上文语句的窗口长度与框选该当前待识别的语句的下文语句的窗口长度相同。
通过预先设置窗口长度使得框选所述当前待识别的语句的上文语句的窗口长度与框选所述当前待识别的语句的下文语句的窗口长度相同,有利于在后续步骤中通过语义解析模型分析该当前待识别的语句的语义与上位语义更相关还是与下文语义更相关时,得出更为准确的预测结果。
框选所述当前待识别的语句的上文语句的窗口长度与框选所述当前待识别的语句的下文语句的窗口长度均为3。
在其中一个实施例中,所述文本语义的识别装置100还包括:
语义起始句获取模块,用于获取该文档中预测结果为主题语义起始句的所有语句;
切分模块,用于根据该主题语义起始句对该文档进行切分,得到与各该主题语义起始句相对应的语句单元。
可以理解的是,所述语句单元包括至少一个语句,对所述文档进行切分时,以所述主题语义起始句为所述语句单元的第一句,以与下一个主题语义起始句在时间线上向上相邻的非主题语义起始句为所述语句单元的最后一句,对所述文档进行切分。
本实施例通过对文档进行切分,可以根据文档中不同语句的主题语义是否相同对文档中的聊天语句进行分类。
作为可选地,该文本语义的识别装置100还包括:
第三输入模块,用于将各该语句单元分别输入至预先训练好的主题识别模型,得到每个该语句单元所属的主题;
主题判断模块,用于判断各该主题中是否存在相同的主题;
合并模块,用于若各该主题中存在相同的主题,则将主题相同的该语句单元中包含的语句进行合并。
在其中一个实施例中,当所述文档为机器人智能问答的聊天记录的文档或用户与人工客服之间的业务咨询的聊天记录的文档时,即表示在先知道各语句单元可能所属的主题,只可能是预先设定的业务类型的主题,在这种情况下只需要对有效的业务相关的主题进行识别时,所述主题识别模型可以选用BERT语言表示模型或者textcnn模型。
当该主题识别模型选用BERT语言表示模型时,与上述语义解析模型不同的是,该主题识别模型的训练方式与该语义解析模型不同的训练方式不同。训练该主题识别模型的训练样本为包括至少一个样本语句的主题样本文档,所述主题样本文档携带有主题标识,该主题标识用于标记该主题样本文档的真实主题,可以将主题样本文档携带的主题标识作为训练目标对该BERT语言表示模型进行训练。
当该主题识别模型选用textcnn模型时,在对该textcnn模型进行训练时与上述主题识别模型选用BERT语言表示模型时的训练方法相似,训练样本为包括至少一个样本语句的主题样本文档,所述主题样本文档携带有主题标识,将主题样本文档携带的主题标识作为训练目标对该textcnn模型进行训练。
在其中一个实施例中,该合并模块具体用于根据该语句的发送时刻,按照该发送时刻越晚越靠后的规则对主题相同的该语句单元中包含的语句依次进行合并。
本实施例通过第三输入模块、主题判断模块和合并模块可以实现将属于同一主题的语句进行识别和合并,使得可以对该文档中属于不同主题语义的语句进行归类。通过对主题相同的所述语句单元中包含的语句进行合并使得可以对文档进行更加合理的归类,便于用于在查看聊天记录时,一目了然地了解对于同一主题讨论的内容,节约了用户查找属于同一主题的聊天内容的时间。
在其中一个实施例中,所述语义解析模型可以选用BERT语言表示模型,它的主要模型结构通过trasnformer模型的encoder堆叠而成。BERT的基础建立在transformer之上,拥有强大的语言表征能力和特征提取能力。进一步地,该文本语义的识别装置100还包括:
样本语句获取模块,用于获取样本文档中的样本聊天语句,该样本文档中的每条该样本聊天语句均携带有是否为主题语义起始句的标注;
第四输入模块,用于将该样本聊天语句输入至待训练的BERT语言表示模型;
训练模块,用于将该样本聊天语句携带的是否为主题语义起始句的标注作为目标,对该BERT语言表示模型进行训练;
收敛模块,用于当该BERT语言表示模型的损失函数收敛时,得到训练好的该语义解析模型。
本实施例提出的文本语义的识别装置通过获取当前待识别的语句,通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句,将所述上文语句、当前待识别的语句以及所述下文语句分别输入预先训练好的语义解析模型,得到与所述上文语句相对应的第一特征向量、与所述当前待识别的语句相对应的第二特征向量和与所述下文语句相对应的第三特征向量,将所述第一特征向量、所述第二特征向量和所述第三特征向量进行加和处理,得到第四特征向量,然后将所述第四特征向量输入至所述语义解析模型的全连接层,通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果,当所述当前待识别的语句不为所述文档的最后一个语句时,将所述当前待识别的语句的下一个语句作为所述当前待识别的语句,循环所述通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句至所述通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果的步骤,直到所述当前待识别的语句为所述文档的最后一个语句,从而实现对文档中主题语义起始句进行智能识别,便于用户在后期查阅文档时,快速地找到对应的主题,也有利于后期对该文档进行切分。
其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分,并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式。
关于文本语义的识别装置的具体限定可以参见上文中对于文本语义的识别方法的限定,在此不再赘述。上述文本语义的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种文本语义的识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中文本语义的识别方法的步骤,例如图2所示的步骤101至步骤106及该方法的其它扩展和相关步骤的延伸。或者,处理器执行计算机程序时实现上述实施例中文本语义的识别装置的各模块/单元的功能,例如图6所示模块11至模块16的功能。为避免重复,这里不再赘述。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中文本语义的识别方法的步骤,例如图2所示的步骤101至步骤106及该方法的其它扩展和相关步骤的延伸。或者,计算机程序被处理器执行时实现上述实施例中文本语义的识别装置的各模块/单元的功能,例如图6所示模块11至模块16的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本语义的识别方法,其特征在于,所述方法包括:
获取当前待识别的语句,通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句;
将所述上文语句、当前待识别的语句以及所述下文语句分别输入预先训练好的语义解析模型,得到与所述上文语句相对应的第一特征向量、与所述当前待识别的语句相对应的第二特征向量和与所述下文语句相对应的第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量进行加和处理,得到第四特征向量;
将所述第四特征向量输入至所述语义解析模型的全连接层,通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果;
判断所述当前待识别的语句是否为文档的最后一个语句;
当所述当前待识别的语句不为所述文档的最后一个语句时,将所述当前待识别的语句的下一个语句作为所述当前待识别的语句,循环所述通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句至所述通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果的步骤,直到所述当前待识别的语句为所述文档的最后一个语句。
2.根据权利要求1所述的文本语义的识别方法,其特征在于,训练所述语义解析模型的步骤包括:
获取样本文档中的样本聊天语句,所述样本文档中的每条所述样本聊天语句均携带有是否为主题语义起始句的标注;
将所述样本聊天语句输入至待训练的BERT语言表示模型;
将所述样本聊天语句携带的是否为主题语义起始句的标注作为目标,对所述BERT语言表示模型进行训练;
当所述BERT语言表示模型的损失函数收敛时,得到训练好的所述语义解析模型。
3.根据权利要求1所述的文本语义的识别方法,其特征在于,在通过所述全连接层输出所述文档的最后一个语句是否为主题语义起始句的预测结果的步骤之后,所述方法还包括:
获取所述文档中预测结果为主题语义起始句的所有语句;
根据所述主题语义起始句对所述文档进行切分,得到与各所述主题语义起始句相对应的语句单元。
4.根据权利要求3所述的文本语义的识别方法,其特征在于,在所述根据所述主题语义起始句对所述文档进行切分的步骤之后,所述方法还包括:
将各所述语句单元分别输入至预先训练好的主题识别模型,得到每个所述语句单元所属的主题;
判断各所述主题中是否存在相同的主题;
若各所述主题中存在相同的主题,则将主题相同的所述语句单元中包含的语句进行合并。
5.根据权利要求4所述的文本语义的识别方法,其特征在于,所述将主题相同的所述语句单元中包含的语句进行合并的步骤包括:
根据所述语句的发送时刻,按照所述发送时刻越晚越靠后的规则对主题相同的所述语句单元中包含的语句依次进行合并。
6.根据权利要求1至5任一项所述的文本语义的识别方法,其特征在于,框选所述当前待识别的语句的上文语句的窗口长度与框选所述当前待识别的语句的下文语句的窗口长度相同。
7.一种文本语义的识别装置,其特征在于,所述装置包括:
语句获取模块,用于获取当前待识别的语句,通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句;
第一输入模块,用于将所述上文语句、当前待识别的语句以及所述下文语句分别输入预先训练好的语义解析模型,得到与所述上文语句相对应的第一特征向量、与所述当前待识别的语句相对应的第二特征向量和与所述下文语句相对应的第三特征向量;
加和处理模块,用于将所述第一特征向量、所述第二特征向量和所述第三特征向量进行加和处理,得到第四特征向量;
第二输入模块,用于将所述第四特征向量输入至所述语义解析模型的全连接层,通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果;
判断模块,用于判断所述当前待识别的语句是否为文档的最后一个语句;
循环模块,用于当所述当前待识别的语句不为所述文档的最后一个语句时,将所述当前待识别的语句的下一个语句作为所述当前待识别的语句,循环所述通过预设的窗口长度获取所述当前待识别的语句的上文语句和下文语句至所述通过所述全连接层输出所述当前待识别的语句是否为主题语义起始句的预测结果的步骤,直到所述当前待识别的语句为所述文档的最后一个语句。
8.根据权利要求7所述的文本语义的识别装置,其特征在于,所述装置还包括:
语义起始句获取模块,用于获取所述文档中预测结果为主题语义起始句的所有语句;
切分模块,用于根据所述主题语义起始句对所述文档进行切分,得到与各所述主题语义起始句相对应的语句单元。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述文本语义的识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述文本语义的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110703198.XA CN113268578B (zh) | 2021-06-24 | 2021-06-24 | 文本语义的识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110703198.XA CN113268578B (zh) | 2021-06-24 | 2021-06-24 | 文本语义的识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268578A true CN113268578A (zh) | 2021-08-17 |
CN113268578B CN113268578B (zh) | 2023-08-29 |
Family
ID=77235820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110703198.XA Active CN113268578B (zh) | 2021-06-24 | 2021-06-24 | 文本语义的识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268578B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019072166A1 (zh) * | 2017-10-10 | 2019-04-18 | 腾讯科技(深圳)有限公司 | 语义分析方法、装置和存储介质 |
CN110232114A (zh) * | 2019-05-06 | 2019-09-13 | 平安科技(深圳)有限公司 | 语句意图识别方法、装置及计算机可读存储介质 |
CN111737987A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 意图识别方法、装置、设备及存储介质 |
CN112084793A (zh) * | 2020-09-14 | 2020-12-15 | 深圳前海微众银行股份有限公司 | 基于依存句法的语义识别方法、设备和可读存储介质 |
CN112149410A (zh) * | 2020-08-10 | 2020-12-29 | 招联消费金融有限公司 | 语义识别方法、装置、计算机设备和存储介质 |
-
2021
- 2021-06-24 CN CN202110703198.XA patent/CN113268578B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019072166A1 (zh) * | 2017-10-10 | 2019-04-18 | 腾讯科技(深圳)有限公司 | 语义分析方法、装置和存储介质 |
CN110232114A (zh) * | 2019-05-06 | 2019-09-13 | 平安科技(深圳)有限公司 | 语句意图识别方法、装置及计算机可读存储介质 |
CN111737987A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 意图识别方法、装置、设备及存储介质 |
CN112149410A (zh) * | 2020-08-10 | 2020-12-29 | 招联消费金融有限公司 | 语义识别方法、装置、计算机设备和存储介质 |
CN112084793A (zh) * | 2020-09-14 | 2020-12-15 | 深圳前海微众银行股份有限公司 | 基于依存句法的语义识别方法、设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113268578B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
WO2020244066A1 (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN108595695B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN109743624B (zh) | 视频切割方法、装置、计算机设备和存储介质 | |
WO2021114810A1 (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN110377900A (zh) | 网络内容发布的审核方法、装置、计算机设备及存储介质 | |
CN111444723A (zh) | 信息抽取模型训练方法、装置、计算机设备和存储介质 | |
US20230057010A1 (en) | Term weight generation method, apparatus, device and medium | |
CN110198464B (zh) | 语音智能播报方法、装置、计算机设备及存储介质 | |
CN112446218A (zh) | 长短句文本语义匹配方法、装置、计算机设备及存储介质 | |
CN113889118A (zh) | 一种诈骗电话识别方法、装置、计算机设备及存储介质 | |
CN112507167A (zh) | 一种识别视频合集的方法、装置、电子设备及存储介质 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
US11361759B2 (en) | Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media | |
CN113157898B (zh) | 候选问题的推荐方法、装置、计算机设备及存储介质 | |
CN112579751A (zh) | 用户信息填入方法、装置以及计算机设备 | |
CN111382569B (zh) | 对话语料中实体的识别方法、装置和计算机设备 | |
CN113268578A (zh) | 文本语义的识别方法、装置、计算机设备及存储介质 | |
WO2020057023A1 (zh) | 自然语言的语义解析方法、装置、计算机设备和存储介质 | |
CN112087473A (zh) | 文档下载方法、装置、计算机可读存储介质和计算机设备 | |
CN114780757A (zh) | 短媒体标签抽取方法、装置、计算机设备和存储介质 | |
CN115080745A (zh) | 基于人工智能的多场景文本分类方法、装置、设备及介质 | |
CN113688246B (zh) | 基于人工智能的历史问题召回方法、装置及相关设备 | |
CN115204118B (zh) | 文章生成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |