CN111626059B - 一种信息处理方法及装置 - Google Patents
一种信息处理方法及装置 Download PDFInfo
- Publication number
- CN111626059B CN111626059B CN202010365516.1A CN202010365516A CN111626059B CN 111626059 B CN111626059 B CN 111626059B CN 202010365516 A CN202010365516 A CN 202010365516A CN 111626059 B CN111626059 B CN 111626059B
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- stem
- triple
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种信息处理方法及装置。其中,该信息处理方法将应答过程大致分为三个阶段:首先,从问题语句得到主干词语;接着,使用第一语言模型进一步选取第一主干词语,并将携带有第一语句和第一主干词语语义信息的第一词向量传递给第二语言模块;然后,使用第二语言模型,结合第一语句和第一主干词语的语义信息,从第一主干词语所对应的三元组中确定应答语句。不难看出,通过以上方法可以从复杂的问题语句中得到一个最能代表该语句语义和意图的第一主干词语,并根据第一主干词语进一步精准缩限三元组的选择范围。如此,不仅大大提高了应答的准确度,还简化了对复杂问题的处理过程。
Description
技术领域
本申请涉及人工智能对话系统领域,尤其涉及一种信息处理方法及装置。
背景技术
现有的问答系统,通过语义解析的方式将自然语言的问题转换成形式化的表达,从而得到应答语句,并输出。但是这种方法只能应对简单的句式或语句,出错率高。
发明内容
本申请公开了一种信息处理方法及装置。
根据本申请的第一方面,公开了一种信息处理方法,该方法包括:获取第一语句;从第一语句中确定至少一个主干词语;根据第一语言模型、第一语句和至少一个主干词语,得到第一词向量,其中第一词向量是第一语句和第一主干词语的表征向量;根据第二语言模型、第一词向量以及第一主干词语对应的三元组集合,得到用于应答第一语句的第二语句。
根据本申请的另一实施例,在根据第二语言模型、第一词向量以及第一主干词语对应的三元组集合,得到用于应答第一语句的第二语句之前,该方法还包括:根据主干词语,从数据库中确定主干词语对应的三元组集合。
根据本申请的另一实施例,根据主干词语,从数据库中确定主干词语对应的三元组集合,包括:根据主干词语,从数据库中确定与主干词语对应的至少一个主题实体;从数据库中获取与主题实体关联的至少一个三元组得到三元组集合。
根据本申请的另一实施例,从第一语句中确定至少一个主干词语包括:使用第一规则对第一语句进行机械划分,得到第一语句对应的词语集合;检测词语集合中的词语,若数据库中存在与词语对应的主题实体,则将词语确定为主干词语。
根据本申请的另一实施例,第一语言模型包括第一编码器和第一处理模块,相应地,根据第一语言模型、第一语句和至少一个主干词语,得到第一词向量,包括:根据第一编码器、第一语句和每一主干词语,得到与第一语句和每一主干词语对应的第二词向量;根据第一处理模块和第二词向量,得到第二词向量对应的主干词语正确性分数;将主干词语正确性分数最高的第二词向量确定为第一词向量;将第一词向量对应的主干词语确定为第一主干词语。
根据本申请的另一实施例,第一编码器是使用自注意力机制进行特征提取的编码器。
根据本申请的另一实施例,第二语言模型包括第二编码器和第二处理模块,相应地,根据第二语言模型、第一词向量以及第一主干词语对应的三元组集合,得到用于应答第一语句的第二语句,包括:根据第二编码器、第一词向量以及第一主干词语对应的三元组集合中的每一三元组,得到与第一词向量和每一三元组对应的第三词向量;根据第二处理模块、第三词向量,得到与第三词向量对应的三元组正确性分数;将三元组正确性分数最高的第三词向量所对应的三元组确定为第一三元组;从第一三元组中获取用于应答第一语句的第二语句。
根据本申请的另一实施例,第二编码器是使用自注意力机制进行特征提取的编码器。
根据本申请的另一实施例,第一语言模型和第二语言模型是联合训练得到的,其中联合训练包括:获取训练数据,训练数据包括第一训练语句、与第一训练语句对应的训练主干词语、与训练主干词语对应的训练三元组和与每一训练三元组对应的正确性标签;根据第一语言模型、第一训练语句和训练主干词语,得到第四词向量和与第四词向量对应的主干词语正确性分数;根据第二语言模型、第四词向量和训练三元组得到与训练三元组对应的三元组正确性分数;根据主干词语正确性分数、三元组正确性分数和正确性标签,计算联合损失函数的值;根据联合损失函数的值,调整第一语言模型的参数和第二语言模型的参数。
根据本申请的第二方面,公开了一种信息处理装置,该装置包括:第一语句获取模块,用于获取第一语句;主干词语确定模块,用于从第一语句中确定至少一个主干词语;第一主干词语确定模块,用于根据第一语言模型、第一语句和至少一个主干词语,得到第一词向量,其中第一词向量是第一语句和第一主干词语的表征向量;第二语句确定模块,用于根据第二语言模型、第一词向量以及第一主干词语对应的三元组集合,得到用于应答第一语句的第二语句。
本申请公开了一种信息处理方法及装置,其中,该方法包括:首先,获取用于提问的第一语句;然后,对第一语句进行词语划分得到至少一个主干词语;接下来,根据第一语言模型对至少一个主干词语进行进一步筛选得到第一主干词语,以及第一语句和第一主干词语对应的第一词向量;之后,根据第一主干词语从数据库中获取与第一主干词语关联的三元组集合,并根据第二语言模型、第一词向量以及第一主干词语对应的三元组集合,得到用于应答第一语句的第二语句。
以上信息处理方法,将应答过程大致分为三个阶段:首先,从问题语句得到主干词语;接着,使用第一语言模型进一步选取第一主干词语,并将携带有第一语句和第一主干词语语义信息的第一词向量传递给第二语言模块;然后,使用第二语言模型,结合第一语句和第一主干词语的语义信息,从第一主干词语所对应的三元组中确定应答语句。不难看出,通过以上方法可以从复杂的问题语句中得到一个最能代表该语句语义和意图的第一主干词语,并根据第一主干词语进一步精准缩限三元组的选择范围。如此,不仅大大提高了应答的准确度,还简化了对复杂问题的处理过程。
需要理解的是,本申请的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本申请的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,有助于理解本申请示例性实施方式的目的、特征和优点。其中,在附图中,相同或对应的标号表示相同或对应的部分。
图1为本申请实施例信息处理方法的实现流程示意图;
图2为本申请实施例第一语言模型和第二语言模型的结构示意图;
图3为本申请实施例信息处理的装置的组成结构示意图。
具体实施方式
下面结合附图,对本申请实施方式中的技术方案进行清楚、完整地描述。需要说明的是,本申请中所公开的实施例仅仅是本申请的一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
图1示出了本申请公开的信息处理方法的实现流程。参考图1,该方法包括:操作110,获取第一语句;操作120,从第一语句中确定至少一个主干词语;操作130,根据第一语言模型、第一语句和至少一个主干词语,得到第一词向量,其中第一词向量是第一语句和第一主干词语的表征向量;操作140,根据第二语言模型、第一词向量以及第一主干词语对应的三元组集合,得到用于应答第一语句的第二语句。
在操作110中,第一语句指对话过程中接收到的、需要进行应答的语句,用于询问信息或推进对话。本申请的这一实施例并不限定获取第一语句的途径,可以是:通过语音接收装置接收到的、语音形式的第一语句;通过文本录入系统接收到的、文本形式的第一语句;通过图像采集系统接收到的、图像形式的第一语句等等。在根据语言模型进行后续处理时,再将通过各种途径获取的第一语句转换为语言模型能够处理的形式。
在操作120中,主干词语(mention)指第一语句中具有某一具体含义、有助于理解第一语句意图的词语。例如,假设第一语句是“厂商甲的5G手机是哪款?”,则其中“厂商甲”、“5G”和“手机”就是第一语句的主干词语。本申请的这一实施例并不限定确定主干词语的方法和途径,可以是:使用基于词典分词算法进行字符串比较得到的;通过机械划分方式进行枚举的方法得到的;基于统计的机器学习算法得到的等等。
在操作130中,语言模型指自然语言处理中的语言模型,其本质是确定语句是否合理的一种模型,具有自然语言能力和自主决策能力。第一语言模型用于从操作120得到的至少一个主干词语中选取一个较为合理的主干词语,即第一主干词语,与此同时将对第一语句和第一主干词语进行编码得到的第一词向量输送给第二语言模型。本申请的这一实施例,借助于第一语言模型从至少一个主干词语中筛选出最能代表第一语句的第一主干词语,如此,不仅可以处理简单的句式或语句,也可以应对较为复杂的问题。此外,确定第一主干词语还可以缩限选择范围,提高应答的精准度,并进一步简化了后续的处理过程。
在操作140中,第二语言模型根据第一词向量从与第一主干词语对应的三元组集合中选取一个最为合理的三元组。所述三元组指知识图谱中的三元组,是获取用于应答第一语句的第二语句的重要依据。第一词向量是根据第一语言模型、第一语句和第一主干词语得到的表征向量,有助于理解第一语句的语义和意图。本申请的这一实施例,仅在与第一主干词语对应的三元组集合中进行选择,并在结合第一词向量理解第一语句的语义和意图的基础上,确定第一三元组。如此,不仅缩限了选择范围,使选择更为精准,还简化了处理过程的复杂度,大大缩短了处理时间。
根据本申请的另一实施例,在根据第二语言模型、第一词向量以及第一主干词语对应的三元组集合,得到用于应答第一语句的第二语句之前,该方法还包括:根据主干词语,从数据库中确定主干词语对应的三元组集合。
在本申请的这一实施例中,主干词语对应的三元组集合是从数据库中获取的、并根据一定关联规则确定的。其中,所述数据库是用于存储知识图谱相关信息的数据存储系统,所述知识图谱相关信息至少包括词库和三元组。从数据库中确定三元组集合,并根据这些三元组确定用于应答第一语句的第二语句,可以更为精准地确定应答语句。所述关联规则指如何确定是否与所述主干词语关联的规则。本申请的这一实施例并不对这一规则进行限定。
根据本申请的另一实施例,根据主干词语,从数据库中确定主干词语对应的三元组集合,包括:根据主干词语,从数据库中确定与主干词语对应的至少一个主题实体;从数据库中获取与主题实体关联的至少一个三元组得到三元组集合。
在本申请的这一实施例中,三元组集合是通过先确定主干词语对应的主题实体,然后再通过主题实体找到与之关联的至少一个三元组来确定的。主题实体(topic entity)指对主干词语进行进一步扩展得到的与主干词语语义相近的、代表某一实体的名词性词语。通常在数据库中也会收录代表某一实体的词语及其别名(alias),而且三元组就是这些词语构成的。
在本申请的这一实施例中,首先,从数据库中查询与主干词语相同、或其别名与主干词语相同的词语,确定主干词语所对应的主题实体;然后,查找出度或入度包含所述主题实体的三元组,得到与主题实体关联的三元组集合。
例如,假设第一语句是“厂商甲的5G手机是哪款?”,其中“厂商甲”、“5G”和“手机”被确定为主干词语,则可以通过上述方法在数据库中确定如表1所示的主题实体和三元组集合:
表1
根据本申请的另一实施例,从第一语句中确定至少一个主干词语包括:使用第一规则对第一语句进行机械划分,得到第一语句对应的词语集合;检测词语集合中的词语,若数据库中存在与词语对应的主题实体,则将词语确定为主干词语。
其中,所述机械划分方式是不考虑语义,单纯地把每个字做为划分的最小单位,在保留原有顺序地基础上进行切分的划分方式。采用这样地划分方式所得到的词语集合包括每一个单字、和由至少两个相邻单字按原有顺序排列形成的词。
此处,第一规则是进行机械划分的规则。以下是可供参考的一些方案:
方案一,枚举所有可能的划分结果。第一轮,以一个字为单位进行划分得到第一集合;第二轮,以两个字为单位进行划分得到第二集合;……;以此类推,直至得到所有可能的划分结果,然后合并所有集合的词语得到最终的词语集合。
例如,假设第一语句是“厂商甲的5G手机是哪款?”,则通过上述方案一机械划分方法进行划分后,可以得到如下词语集合:{“厂”、“商”、“甲”、“的”、“5”、“G”、“手”、“机”、“是”、“哪”、“款”、“厂商”、“甲的”、“5G”、“手机”、“是哪”、“商甲”、“的5”、“G手”、“机是”、“哪款”、……}
方案二,假设一个字为主干词语的机率较小,从两个字为单位开始进行枚举,第一轮,以两个字为单位进行划分得到第一集合;第二轮;以三个字为单位进行划分得到第二集合;……;以此类推,直至得到所有可能的划分结果,然后合并所有集合的词语得到最终的词语集合。
方案三,假设已知数据库中存储的词语的最长长度是N,则进行枚举的时候,在以N个字为单位进行划分后就不再进行下一轮划分。
使用机械划分方式比起基于词典的传统方法,突破了语义理解和词典所具有的语言屏障,可适用于不同语种和多种语言。而这一优势在信息全球共享的全球化大趋势下,尤显重要。
根据以上方法得到的词语集合有可能会非常庞大,为此,要进一步对这部分词语进行进一步筛选。在本申请的这一实施例中,通过检测数据库中是否存在与词语对应的主题实体来进一步从这部分词语中确定主干词语的。由于在获取应答第一语句的第二语句时,主要是根据三元组来确定的,而三元组的主要是主题实体为出度和入度的,如果得到的主干词语在所述数据库中找不到与之对应的词语作为主题实体,则后续处理就会变得没有意义,还会增加无谓的干扰,使运算更为复杂,增加计算时间等等。经过数据库筛选过的主干词语会提高确定主干词语的准确度,并简化后续处理过程
根据本申请的另一实施例,如图2所示,第一语言模型10包括第一编码器203和第一处理模块205,相应地,根据第一语言模型、第一语句和至少一个主干词语,得到第一词向量,包括:根据第一编码器203、第一语句201和每一主干词语202,得到与第一语句201和每一主干词语202对应的第二词向量204;根据第一处理模块205和第二词向量204,得到第二词向量对应的主干词语正确性分数206;将主干词语正确性分数最高的第二词向量204确定为第一词向量207;将第一词向量对应的主干词语确定为第一主干词语。
其中,所述编码指依据一定的语言特征提取规则,将第一语句和每一主干词语中的每个字映射为计算机可以识别的一个数字形式的、表征向量。第一编码器203对第一语句201和每一主干词语202进行编码得到得到第一语句201和每一主干词语202表征向量,即第二词向量204,可以将从第一语句201和每一主干词语202中提取的语言特征转化成数字形式的表征向量以进行后续处理。
其中,第一处理模块205根据第一编码器203输出的第二词向量预测每一主干词语202的主干词语正确性分数206。在本申请的这一实施例中,第一处理模块205是采用前馈式神经网络(FFNN)对第二词向量进行运算得到主干词语正确性分数206的。
根据本申请的另一实施例,第一编码器是使用自注意力机制(self-attention)进行特征提取的编码器。
其中,使用自注意力机制进行特征提取,会在特征提取的过程中引入权重的概念。这一权重,简单地理解,可以代表某一词语有助于理解第一语句语义和意图的重要程度。而这一权重的值是在机器学习过程中计算得到并不断修正地。在本申请的这一实施例中,使用自注意力机制进行特征提取的编码器取代一般的编码器作为第一编码器,可以突出有助于理解第一语句语义和意图的主干词语,使后续得到的主干词语正确性分数得到合理的差异化分布,确定第一主干词语的准确率更高。
根据本申请的另一实施例,如图2所示,第二语言模型20包括第二编码器209和第二处理模块212,相应地,根据第二语言模型、第一词向量以及第一主干词语对应的三元组集合,得到用于应答第一语句的第二语句,包括:根据第二编码器209、第一词向量207以及第一主干词语对应的三元组集合中的每一三元组208,得到与第一词向量和每一三元组对应的第三词向量210;根据第二处理模块212、第三词向量210,得到与第三词向量210对应的三元组正确性分数213;将三元组正确性分数最高的第三词向量所对应的三元组确定为第一三元组214;从第一三元组214中获取用于应答第一语句的第二语句。
其中,第二编码器209的主要作用就是对第一词向量207和与第一词向量对应的第一主干词语关联的每一三元组208进行语言特征提取得到第一语句201、第一主干词语和每一三元组208对应的一个词向量,即第三词向量210。
其中,第二处理模块212主要用于根据第二编码器209提取到的语言特征预测每一三元组208的三元组正确性分数213。本申请的这一实施例采用前馈式神经网络(FFNN)对第三词向量进行运算得到三元组正确性分数213。
根据本申请的另一实施例,第二编码器是使用自注意力机制进行特征提取的编码器。
与第一编码器类似,在本申请的这一实施例中,使用自注意力机制进行特征提取的编码器取代一般的编码器作为第二编码器,可以突出与第一语句语义和意图更接近的三元组,使后续得到的三元组正确性分数得到合理的差异化分布,从而更容易选出较为合理的三元组作为第一三元组。
根据本申请的另一实施例,第一语言模型和第二语言模型是联合训练得到的,其中联合训练包括:获取训练数据,训练数据包括第一训练语句、与第一训练语句对应的训练主干词语、与训练主干词语对应的训练三元组和与每一训练三元组对应的正确性标签;根据第一语言模型、第一训练语句和训练主干词语,得到第四词向量和与第四词向量对应的主干词语正确性分数;根据第二语言模型、第四词向量和训练三元组得到与训练三元组对应的三元组正确性分数;根据主干词语正确性分数、三元组正确性分数和正确性标签,计算联合损失函数的值;根据联合损失函数的值,调整第一语言模型的参数和第二语言模型的参数。
其中,训练数据与实际预测中使用的数据不同,通常都是带有标签的。所谓标签(label),也被成为标注信息,是与要预测的结果所对应的期待值。在本申请的这一实施例中,这一标签就是与每一三元组对应的正确性标签。通常,这一正确性标签的值也与语言模型的预测值类型对应,假设语言模型采用二分类方法进行预测和评分,则正确性标签标签的值就是0或1,即正确的三元组对应的正确性标签为1,不正确的三元组对应的正确性标签为0。
本申请的这一实施例并不对获取训练数据的方式和途径进行限定。其中,第一训练语句可以通过收集搜索语句的方式获得,也可以从第三方的数据提供商处获得;训练主干词语可以是使用前述确定主干词语的方法从所述第一训练语句中确定的;而与训练主干词语对应的训练三元组可以通过前述确定与主干词语对应的三元组的方法得到。
根据主干词语正确性分数、三元组正确性分数和正确性标签,计算联合损失函数的值时,本申请公开的这一实施例采用均方误差作为损失函数,反向优化全部模型参数。
在本申请的这一实施例中,由于一个样本中包含了多个阶段的信息,比如第一训练语句、训练主干词语、训练三元组等,经过联合训练得到的第一语言模型和第二语言模型在决策时,会综合考虑到第一语句、主干词语、主题实体与三元组的匹配程度。且经过第一语言模型处理之后,包含第一语句和第一主干词语的第一词向量融合了分词结果,因此第二语言模型会结合第一语句、第一主干词语、与第一主干词语对应的主题实体所在的三元组共同做出判断。这样就形成了完整的语义上下文,为模型的决策提供更充分的参数依据。
此外,采用本申请的这一实施例的上述方法,一方面可以使第一语言模型在训练阶段更好地学习语句的分割方式,并将融合了主干词语上下文信息的第一词向量传递给第二语言模块;另一方面也可以在预测阶段,根据第一语言模型挑选出来的第一主干词语对三元组集合进行进一步筛选,加速处理流程。
进一步地,本申请的这一实施例还提供一种信息处理装置,如图3所示,该装置30包括:第一语句获取模块301,用于获取第一语句;主干词语确定模块302,用于从第一语句中确定至少一个主干词语;第一主干词语确定模块303,用于根据第一语言模型、第一语句和至少一个主干词语,得到第一词向量,其中第一词向量是第一语句和第一主干词语的表征向量;第二语句确定模块304,用于根据第二语言模型、第一词向量以及第一主干词语对应的三元组集合,得到用于应答第一语句的第二语句。
根据本申请的另一实施例,该装置30还包括:三元组集合确定模块,用于根据主干词语,从数据库中确定主干词语对应的三元组集合。
根据本申请的另一实施例,三元组集合确定模块包括:主题实体确定单元,用于根据主干词语,从数据库中确定与主干词语对应的至少一个主题实体;三元组确定单元,用于从数据库中获取与主题实体关联的至少一个三元组得到三元组集合。
根据本申请的另一实施例,主干词语确定模块302包括:机械划分单元,用于使用第一规则对第一语句进行机械划分,得到第一语句对应的词语集合;词语检测单元,用于检测词语集合中的词语,若数据库中存在与词语对应的主题实体,则将词语确定为主干词语。
根据本申请的另一实施例,第一主干词语确定模块303包括:第一编码单元,用于根据第一编码器、第一语句和每一主干词语,得到与第一语句和每一主干词语对应的第二词向量;第一处理单元,用于根据第一处理模块和第二词向量,得到第二词向量对应的主干词语正确性分数;第一词向量确定单元,用于将主干词语正确性分数最高的第二词向量确定为第一词向量;第主干词语确定单元,用于将第一词向量对应的主干词语确定为第一主干词语。
根据本申请的另一实施例,第一编码单元中的第一编码器是使用自注意力机制进行特征提取的编码器。
根据本申请的另一实施例,第二语句确定模块304包括:第二编码单元,用于根据第二编码器、第一词向量以及第一主干词语对应的三元组集合中的每一三元组,得到与第一词向量和每一三元组对应的第三词向量;第二处理单元,用于根据第二处理模块、第三词向量,得到与第三词向量对应的三元组正确性分数;第一三元组确定单元,用于将三元组正确性分数最高的第三词向量所对应的三元组确定为第一三元组;第二语句获取单元,用于从第一三元组中获取用于应答第一语句的第二语句。
根据本申请的另一实施例,第二编码单元中的第二编码器是使用自注意力机制进行特征提取的编码器。
根据本申请的另一实施例,该装置30还包括联合训练模块,用于对第一语言模型和第二语言模型进行联合训练。联合训练模块包括:训练数据获取单元,用于获取训练数据,训练数据包括第一训练语句、与第一训练语句对应的训练主干词语、与训练主干词语对应的训练三元组和与每一训练三元组对应的正确性标签;主干词语正确性分数确定单元,用于根据第一语言模型、第一训练语句和训练主干词语,得到第四词向量和与第四词向量对应的主干词语正确性分数;三元组正确性分数确定单元,用于根据第二语言模型、第四词向量和训练三元组得到与训练三元组对应的三元组正确性分数;联合损失函数计算单元,用于根据主干词语正确性分数、三元组正确性分数和正确性标签,计算联合损失函数的值;参数确定单元,用于根据联合损失函数的值,调整第一语言模型的参数和第二语言模型的参数。
这里需要指出的是:以上针对信息处理装置实施例的描述与前述方法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做赘述。对于本申请的这一实施例对信息处理装置实施例的描述尚未披露的技术细节,请参照本申请前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(Read OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的这一实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种信息处理方法,所述方法包括:
获取第一语句;
从所述第一语句中确定至少一个主干词语,所述主干词语为所述第一语句中具有具体含义、有助于理解所述第一语句意图的词语;
根据第一语言模型、所述第一语句和所述至少一个主干词语,得到第一词向量,其中所述第一词向量是所述第一语句和第一主干词语的表征向量;
根据第二语言模型的第二编码器、所述第一词向量以及所述第一主干词语对应的三元组集合中的每一三元组,得到与所述第一词向量和每一三元组对应的第三词向量,所述第二语言模型包括第二编码器和第二处理模块;
根据所述第二处理模块、所述第三词向量,得到与所述第三词向量对应的三元组正确性分数;
将三元组正确性分数最高的第三词向量所对应的三元组确定为第一三元组;
从所述第一三元组中获取用于应答第一语句的第二语句。
2.根据权利要求1所述的方法,在所述根据第二语言模型、所述第一词向量以及第一主干词语对应的三元组集合,得到用于应答第一语句的第二语句之前,所述方法还包括:
根据所述主干词语,从数据库中确定所述主干词语对应的三元组集合。
3.根据权利要求2所述的方法,所述根据所述主干词语,从数据库中确定所述主干词语对应的三元组集合,包括:
根据所述主干词语,从所述数据库中确定与所述主干词语对应的至少一个主题实体;
从所述数据库中获取与所述主题实体关联的至少一个三元组得到三元组集合。
4.根据权利要求1所述的方法,从所述第一语句中确定至少一个主干词语包括:
使用第一规则对所述第一语句进行机械划分,得到所述第一语句对应的词语集合;
检测所述词语集合中的词语,若数据库中存在与所述词语对应的主题实体,则将所述词语确定为主干词语。
5.根据权利要求1所述的方法,所述第一语言模型包括第一编码器和第一处理模块,
相应地,所述根据所述第一语言模型、所述第一语句和所述至少一个主干词语,得到第一词向量,包括:
根据所述第一编码器、所述第一语句和每一主干词语,得到与所述第一语句和每一主干词语对应的第二词向量;
根据第一处理模块和所述第二词向量,得到所述第二词向量对应的主干词语正确性分数;
将主干词语正确性分数最高的第二词向量确定为第一词向量;
将所述第一词向量对应的主干词语确定为第一主干词语。
6.根据权利要求5所述的方法,所述第一编码器是使用自注意力机制进行特征提取的编码器。
7.根据权利要求1所述的方法,所述第二编码器是使用自注意力机制进行特征提取的编码器。
8.根据权利要求1所述的方法,所述第一语言模型和第二语言模型是联合训练得到的,其中所述联合训练包括:
获取训练数据,所述训练数据包括第一训练语句、与所述第一训练语句对应的训练主干词语、与所述训练主干词语对应的训练三元组和与每一训练三元组对应的正确性标签;
根据所述第一语言模型、所述第一训练语句和所述训练主干词语,得到第四词向量和与所述第四词向量对应的主干词语正确性分数;
根据所述第二语言模型、所述第四词向量和所述训练三元组得到与所述训练三元组对应的三元组正确性分数;
根据所述主干词语正确性分数、所述三元组正确性分数和所述正确性标签,计算联合损失函数的值;
根据所述联合损失函数的值,调整所述第一语言模型的参数和所述第二语言模型的参数。
9.一种信息处理装置,所述装置包括:
第一语句获取模块,用于获取第一语句;
主干词语确定模块,用于从所述第一语句中确定至少一个主干词语,所述主干词语为所述第一语句中具有具体含义、有助于理解所述第一语句意图的词语;
第一主干词语确定模块,用于根据第一语言模型、所述第一语句和所述至少一个主干词语,得到第一词向量,其中所述第一词向量是所述第一语句和第一主干词语的表征向量;
第二语句确定模块,所述第二语句确定模块包括:第二编码单元,用于根据第二编码器、第一词向量以及第一主干词语对应的三元组集合中的每一三元组,得到与第一词向量和每一三元组对应的第三词向量;第二处理单元,用于根据第二处理模块、第三词向量,得到与第三词向量对应的三元组正确性分数;第一三元组确定单元,用于将三元组正确性分数最高的第三词向量所对应的三元组确定为第一三元组;第二语句获取单元,用于从第一三元组中获取用于应答第一语句的第二语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365516.1A CN111626059B (zh) | 2020-04-30 | 2020-04-30 | 一种信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365516.1A CN111626059B (zh) | 2020-04-30 | 2020-04-30 | 一种信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626059A CN111626059A (zh) | 2020-09-04 |
CN111626059B true CN111626059B (zh) | 2022-07-26 |
Family
ID=72259135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010365516.1A Active CN111626059B (zh) | 2020-04-30 | 2020-04-30 | 一种信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626059B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115438170A (zh) * | 2022-11-09 | 2022-12-06 | 北京红棉小冰科技有限公司 | 一种对话模型生成、应用方法、系统、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101678787B1 (ko) * | 2015-07-15 | 2016-12-06 | 포항공과대학교 산학협력단 | 자동질의응답 방법 및 그 장치 |
CN107291783B (zh) * | 2016-04-12 | 2021-04-30 | 芋头科技(杭州)有限公司 | 一种语义匹配方法及智能设备 |
CN107146604B (zh) * | 2017-04-27 | 2020-07-03 | 北京捷通华声科技股份有限公司 | 一种语言模型优化方法及装置 |
CN108509411B (zh) * | 2017-10-10 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 语义分析方法和装置 |
CN107679039B (zh) * | 2017-10-17 | 2020-12-29 | 北京百度网讯科技有限公司 | 用于确定语句意图的方法和装置 |
-
2020
- 2020-04-30 CN CN202010365516.1A patent/CN111626059B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111626059A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11238845B2 (en) | Multi-dialect and multilingual speech recognition | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
US8185372B2 (en) | Apparatus, method and computer program product for translating speech input using example | |
CN112036162B (zh) | 文本纠错的适配方法、装置、电子设备及存储介质 | |
CN111523306A (zh) | 文本的纠错方法、装置和系统 | |
US11735184B2 (en) | Translation and speech recognition method, apparatus, and device | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
WO2022256144A1 (en) | Application-specific optical character recognition customization | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN110275953B (zh) | 人格分类方法及装置 | |
CN114742016A (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
CN111626059B (zh) | 一种信息处理方法及装置 | |
CN116522905B (zh) | 文本纠错方法、装置、设备、可读存储介质及程序产品 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN116579327A (zh) | 文本纠错模型训练方法、文本纠错方法、设备及存储介质 | |
CN114444492B (zh) | 一种非标准词类判别方法及计算机可读存储介质 | |
CN113327581B (zh) | 一种提升语音识别准确率的识别模型优化方法及系统 | |
CN112183114B (zh) | 模型训练、语义完整性识别方法和装置 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN114692610A (zh) | 关键词确定方法及装置 | |
CN113688615A (zh) | 一种字段注释生成、字符串理解方法、设备及存储介质 | |
CN115713934B (zh) | 一种语音转文本的纠错方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |