CN113946663A - 语句生成方法、提问方法、装置及可读介质 - Google Patents

语句生成方法、提问方法、装置及可读介质 Download PDF

Info

Publication number
CN113946663A
CN113946663A CN202010699389.9A CN202010699389A CN113946663A CN 113946663 A CN113946663 A CN 113946663A CN 202010699389 A CN202010699389 A CN 202010699389A CN 113946663 A CN113946663 A CN 113946663A
Authority
CN
China
Prior art keywords
sentence
content
input text
dialogue
generation mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010699389.9A
Other languages
English (en)
Inventor
姬长阵
张琼
孙常龙
周鑫
张雅婷
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010699389.9A priority Critical patent/CN113946663A/zh
Publication of CN113946663A publication Critical patent/CN113946663A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种语句生成方法、提问方法、装置及可读介质,涉及人工智能技术领域。所述方法包括:获取输入文本;根据输入文本,确定与输入文本相匹配的语句生成模式;根据语句生成模式,为输入文本生成语句内容。本申请通过先选择与输入文本相匹配的语句生成模式,根据该语句生成模式生成语句内容,相较于直接使用固定的语句生成模式确定语句内容的方式,由于相匹配的语句生成模式与输入文本更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高对话效果。

Description

语句生成方法、提问方法、装置及可读介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种语句生成方法、提问方法、装置及可读介质。
背景技术
随着人工智能技术的不断发展,能够与用户进行智能对话的设备越来越多。在智能对话过程中,一般是根据用户输入的文本,确定用于应答的语句内容,最后输出语句内容。
现有技术中,确定语句内容时,往往是根据固定的语句生成模式,确定语句内容。但用户输入的文本的语言特点可能不同,这样采用固定语句生成模式直接确定语句内容的方式,最终确定的语句内容有时并不准确,进而会导致对话效果较差。
发明内容
鉴于上述问题,本申请实施例提供一种语句生成方法、提问方法、装置及可读介质,以解决语句内容不够准确,对话效果较差的问题。
为了解决上述问题,本申请实施例公开了一种语句生成方法,包括:
获取输入文本;
根据所述输入文本,确定与所述输入文本相匹配的语句生成模式;
根据所述语句生成模式,为所述输入文本生成语句内容。
相应的,本申请实施例还公开了一种司法审判中的提问方法,包括:
获取司法案件的相关文本;
根据所述相关文本,确定与所述相关文本相匹配的语句生成模式;
根据所述语句生成模式,为所述相关文本生成语句内容;
根据所述语句内容,输出模拟提问;所述模拟提问用于模拟司法审判人员根据所述相关文本进行的提问。
相应的,本申请实施例还公开了一种语句生成装置,包括:
第一获取模块,用于获取输入文本;
确定模块,用于根据所述输入文本,确定与所述输入文本相匹配的语句生成模式;
生成模块,用于根据所述语句生成模式,为所述输入文本生成语句内容。
相应的,本申请实施例还公开了一种司法审判中的提问装置,包括:
获取模块,用于获取司法案件的相关文本;
确定模块,用于根据所述相关文本,确定与所述相关文本相匹配的语句生成模式;
生成模块,用于根据所述语句生成模式,为所述相关文本生成语句内容;
输出模块,用于根据所述语句内容,输出模拟提问;所述模拟提问用于模拟司法审判人员根据所述相关文本进行的提问。
相应的,本申请实施例还公开了一种装置,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行上述方法。
相应的,本申请实施例还公开了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述方法。
本申请实施例包括以下优点:
本申请实施例包括:获取输入文本;根据输入文本,确定与输入文本相匹配的语句生成模式;根据语句生成模式,为输入文本生成语句内容。本申请通过先选择与输入文本相匹配的语句生成模式,根据该语句生成模式生成语句内容,相较于直接使用固定的语句生成模式确定语句内容的方式,由于相匹配的语句生成模式与输入文本更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高对话效果。
附图说明
图1A是本申请一实施例提供的一种语句生成方法的实现架构图;
图1B是本申请一实施例提供的另一种实现架构图;
图1C是本申请一实施例提供的又一种实现架构图;
图2是本申请一实施例提供的一种场景示意图;
图3是本申请一实施例提供的另一种场景示意图;
图4是本申请一实施例提供的一种语句生成方法的步骤流程图;
图5是本申请一实施例提供的一种语句生成方法的具体步骤流程图;
图6是本申请一实施例提供的又一种场景示意图;
图7是本申请一实施例提供的再一种场景示意图;
图8是本申请一实施例提供的一种司法审判中的提问方法的步骤流程图;
图9是本申请一实施例提供的一种智能客服的应答方法的步骤流程图;
图10是本申请一实施例提供的一种语句生成装置的结构图;
图11是本申请一实施例提供的一种司法审判中的提问装置的结构图;
图12是本申请一实施例提供的一种智能客服的应答装置的结构图;
图13是本申请另一实施例提供的一种装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为使本领域技术人员更好地理解本申请,以下对本申请涉及的概念进行说明:
人工智能:也称为机器智能,指由人类制造出来的机器所表现出来的智能。通常是指通过计算机程序来呈现人类智能的技术。
智能对话:指终端设备与真实人类进行对话的技术。
输入文本:用于表示真实人类用户所要表达的内容的文本。
语句内容:用于对输入文本进行应答的数据。
语句生成模式:用于表示根据输入文本确定语句内容的方式,不同的语句生成模式,对应的确定方式不同。
序列生成式:一种语句生成模式,又称为直接生成模式,使用该模式确定语句内容时,可以是根据输入文本本身的内容生成用于应答的语句内容。
检索式:一种语句生成模式,使用该模式确定语句内容时,可以是根据输入文本从已有的待选语句内容选择用于应答的语句内容。
参照图1A,其示出了本申请一实施例的一种语句生成方法的实现架构图,该实现架构中包括:用户S110及智能对话机器人S120。其中,用户S110可以执行步骤1.1说话,智能对话机器人S120可以通过步骤1.2从用户S110处获取输入文本,其中,该输入文本可以为用户S110所说话语对应的文本。接着,智能对话机器人S120可以执行步骤1.3根据输入文本,确定与所述输入文本相匹配的语句生成模式,根据语句生成模式,为输入文本生成语句内容的步骤。最后,智能对话机器人S120可以通过步骤1.4向用户S110输出语句内容。本申请中,通过先选择与输入文本相匹配的语句生成模式,根据语句生成模式,为输入文本生成语句内容,这样,相较于直接使用固定的语句生成模式确定语句内容的方式,由于相匹配的语句生成模式与输入文本更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高对话效果。
参照图1B,其示出了本申请一实施例的另一种实现架构图,该实现架构中包括:用户S110及终端设备S130。其中,终端设备S130中搭载有虚拟对话助手。终端设备S130可以通过步骤1.5从用户S110处获取输入文本,例如,获取用户S110通过终端设备S130的键盘输入的内容,然后终端设备S130中的虚拟对话助手可以通过步骤1.6根据输入文本,确定与输入文本相匹配的语句生成模式,根据语句生成模式,为输入文本生成语句内容。最后,终端设备S130可以通过步骤1.7向用户S110输出语句内容。在该实现架构图中,通过先选择与输入文本相匹配的语句生成模式,根据语句生成模式,为输入文本生成语句内容,一定程度上可以提高生成的语句内容的准确性,进而提高对话效果。
进一步地,参照图1C,其示出了本申请一实施例的又一种实现架构图,该实现架构中包括:用户S110、终端设备S130及服务器S140。其中,用户S110可以通过步骤1.8将自己想要表达的对话内容通过文本输入的方式输入至终端设备S130中,终端设备S130可以通过步骤1.9及1.10确定输入文本,并将输入文本发送给服务器S140。服务器S140可以通过步骤1.11及步骤1.12实现根据输入文本,确定与输入文本相匹配的语句生成模式,根据语句生成模式,为输入文本生成语句内容,并将语句内容返回给终端设备S130。最后,终端设别S130可以执行步骤1.13向用户输出语句内容。由于服务器S140的硬件性能、处理能力往往较高,因此,本申请通过服务器S140实现根据所述输入文本,确定语句内容的一系列操作,可以在提高语句内容的准确性的同时,节省终端设备的算力,提高对话效率。
参照图2,其示出了本申请一实施例的一种场景示意图,该场景中的用户S210可以为参与司法审判的原告、被告、律师及证人,终端设备S220中搭载有智能法官助理,用户S230为法官。其中,在用户S210进行陈述、提供证据的环节中,终端设备S220可以根据原告、被告、律师或证人所陈述的内容、提供的证据,获取输入文本,然后根据输入文本,确定与输入文本相匹配的语句生成模式,根据语句生成模式,为输入文本生成语句内容。最后根据语句内容,输出模拟提问,其中,模拟提问可以是模拟法官进行的提问。其中,用户S230可以根据模拟提问,进行补充。在该司法审判场景中,通过智能法官助理模拟法官进行提问,可以辅助法官主导司法流程的进行,这样,一定程度上可以简化法官的操作,进而节约司法资源,提高审判效率。
进一步地,在司法审判场景中,确定与输入文本相匹配的语句生成模式时,可以是从至少两种待选语句生成模式中选择相匹配的语句生成模式。其中,至少两种待选语句生成模式可以包括序列生成式和检索式。由于法官所说的话往往会存在大量提问,因此,智能法官助理的语句内容中会存在大量提问形式的语句内容。在其他同样存在大量提问形式的语句内容的类似场景中,例如,通过智能闲聊助理模拟闲聊对象实现与用户进行闲聊的智能闲聊场景中,为了实现闲聊,智能闲聊助理输出的语句内容往往也会包含大量提问形式的语句内容,以推进和用户的聊天进程。但是,由于闲聊场景中,用户所说的话的内容往往比较发散,用户提问并没有固定逻辑,相应地,闲聊对象所说的话也没有固定逻辑可循。因此,智能闲聊助理根据输入文本确定语句内容时,往往只能直接根据输入文本采用列生成式,确定语句内容。以确保应答的准确性。
而在司法审判场景中,由于司法审判具有一定的审判流程,法官在司法审判过程中所说的话往往具有一定的固定逻辑,因此,在司法审判场景中,智能法官助理可以不局限于单一固定的语句生成模式,而是结合序列生成式和检索式,从中选择相匹配的语句生成模式来确定语句内容,进而提高语句内容的准确性。且由于检索式是通过从已有的待选语句内容中进行选择来实现确定语句内容,相较于直接生成的方式,所耗费的处理资源往往更少,耗时更短。因此,通过结合两种模式选择相匹配的语句生成模式来确定语句内容的方式,可以在确保语句内容的准确性的同时,一定程度上节约处理资源,提高处理效率。
同时,由于闲聊场景中,用户所说的话的内容往往会涉及生活中的方方面面,为了确保生成的语句内容的准确性,在一种实现方式中,往往需要人工标注大量的知识图谱作为智能闲聊助理的额外知识补充,以扩大智能闲聊助理的知识覆盖面,指导智能闲聊助理下一步要提问的内容,进而确保智能闲聊助理确定的语句内容,提高闲聊对话的效果。而在司法审判场景中,由于涉及到知识面通过历史司法审判过程中产生的数据即可较为全面的覆盖,因此,本申请中无需人工标注知识图谱作为额外知识补充,进而一定程度上可以节约人力,降低实现成本。
参照图3,其示出了本申请一实施例的另一种场景示意图,该场景中终端设备S320中搭载有智能客服,终端设备S320可以通过步骤3.1从用户S310处获取输入文本,该输入文本可以表示用户S310需要咨询的问题,接着,终端设备S320中的智能客服可以通过步骤3.2根据输入文本,确定与输入文本相匹配的语句生成模式,根据语句生成模式,为输入文本生成语句内容。最后,终端设备S320可以通过步骤3.3向用户S310输出语句内容。本申请中,通过选择与输入文本相匹配的语句生成模式,根据语句生成模式,为输入文本生成语句内容,这样,一定程度上可以提高智能客服应答的准确性,进而提高对话效果。
参照图4,示出了本申请的一种语句生成方法的步骤流程图。该方法具体可以包括如下步骤:
步骤101,获取输入文本。
在本申请实施例中,输入文本可以是对话场景中,用于表示用户需要表达的内容的文本。输入文本可以是音频类型的数据、文本类型的数据或者图片类型的数据得到的。例如,用户可以以说话的方式传达所需表达的内容,相应地,可以获取用户所说话语的音频,得到音频类型的数据。通过音频转文本技术,将音频类型的数据转换为文本,得到输入文本。又例如,用户可以通过输入装置以文本的方式传达所需表达的内容,相应地,可以获取用户所输入的文本,作为输入文本。又或者,用户可以通过图像采集装置以图像的方式传达所需表达的内容,相应地,可以获取图像,得到图像类型的数据,接着,通过字符识别技术,识别并提取图像中的字符,得到输入文本。
步骤102,根据所述输入文本,确定与所述输入文本相匹配的语句生成模式。
在本申请实施例中,可以是从至少两种待选语句生成模式选择相匹配的语句生成模式。至少两种待选语句生成模式的具体数量以及所包含的具体待选语句生成模式可以是根据实际需求设置的。可选的,待选语句生成模式的数量可以为2,这两种待选语句生成模式为序列生成式及检索式。
由于不同的语句生成模式,确定语句内容的方式不同,这样,在面对相同输入文本的情况下,采用不同语句生成模式确定的语句内容的准确度并不相同。因此,本申请实施例中,可以先从至少两种待选语句生成模式中确定与输入文本相匹配的语句生成模式。其中,相匹配的语句生成模式可以是根据输入文本确定的生成语句内容的准确度满足预设要求的模式,例如,准确度最高,或者是准确度大于预设阈值。
示例的,确定相匹配的语句生成模式时,可以先根据各待选语句生成模式根据输入文本进行预确定,以确定备选语句内容。然后将对应的备选语句内容的准确率最高的语句生成模式作为相匹配的语句生成模式。又或者,可以是将输入文本输入预训练的模式选择模型,通过该模式选择模型选择出准确率最高的语句生成模式作为相匹配的语句生成模式。本申请实施例对此不作限定。
步骤103、根据所述语句生成模式,为所述输入文本生成语句内容。
在本申请实施例中,可以按照相匹配的语句生成模式所代表的生成方式,将输入文本作为处理对象,根据输入文本进行处理,以确定语句内容。在确定语句内容之后,可以输出语句内容,以实现与用户对话。
综上所述,本申请实施例提供的一种语句生成方法,包括:获取输入文本;根据输入文本,确定与输入文本相匹配的语句生成模式;根据语句生成模式,为输入文本生成语句内容。本申请通过先选择与输入文本相匹配的语句生成模式,根据语句生成模式生成语句内容,相较于直接使用固定的语句生成模式确定语句内容的方式,由于选择的语句生成模式与输入文本更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高对话效果。
参照图5,示出了本申请提供的一种语句生成方法的具体步骤流程图,具体可以包括如下步骤:
步骤201,获取历史对话样本;所述历史对话样本记录有目标对象的对话语句。
在本申请实施例中,目标对象可以是根据需求设定的特定类型的对象,例如,目标对象可以为司法审判人员,客服人员,等等。获取历史对话样本时,可以通过人工收集目标对象在现实世界中的对话场景中的对话语句数据,然后根据这些对话语句数据生成历史对话样本,或者,从网络中爬取记录有目标对象在现实世界中的对话场景中对话语句数据,生成历史对话样本。
其中,历史对话样本可以为文本类型在数据。在对话语句数据不为文本类型的数据的情况下,可以将对话语句数据转换为文本类型的数据,进而得到历史对话样本。示例的,假设对话语句数据为音频类型的数据,可以通过音频转文本技术,将对话语句数据转换为文本。假设对话语句数据为图像类型的数据,可以通过字符识别技术,识别并提取图像中的字符,得到历史对话样本。
步骤202,利用所述历史对话样本训练对话模型。
可循的,进行训练之前,可以先将所述历史对话样本中的高频语句进行抽取,形成所述检索库。本申请实施例中的检索库可以与检索式对应,根据检索式确定语句内容时,可以是从该检索库中选择语句内容。
可选的,形成检索库的操作可以通过下述步骤实现:
步骤A,统计所述历史对话样本中所述目标对象所说语句的出现频次。
本步骤中,可以对历史对话样本进行内容识别,以确定历史对话样本中包含的各个语句对应的说话主体,也就是确定该语句是由谁所说的。例如,可以先通过文本划分算法,将该历史对话样本划分为多个句子,然后通过文本识别技术分析各个语句的语言特点,根据语言特点,确定各个语句对应的说话主体。最后,可以根据各个语句对应的说话主体,确定说话主体为目标对象的语句的数量,进而得到出现频次。
步骤B,将出现频次大于预设频次阈值的语句,确定为待选语句内容。
步骤C,根据所述待选语句内容,获取所述检索库。
本申请实施例中,预设频次阈值可以是根据实际情况设置的,例如,预设频次阈值可以为5。如果语句的出现频次大于预设频次阈值,则可以认为目标对象在实际对话场景中,会经常使用该语句进行应答,因此,可以将出现频次大于预设频次阈值的语句作为待选语句内容,获取检索库。其中,在获取检索库时,可以是将待选语句内容存储至预设数据库中,然后将该预设数据库作为检索库。本申请实施例中,通过选择高频语句建立检索式对应的检索库,使得后续采用检索式确定语句内容时,直接从检索库中选择,即可较为快捷准确的确定出语句内容,这样,一定程度上可以在确保语句内容准确性的同时,提高应答效率。
示例的,假设目标对象为法官,历史对话样本为司法庭审笔录,由于法官的司法审判过程中,法官的提问经常是含有固定逻辑的,并且存在许多相似的提问的,例如,“原告有无补充”,“被告有无补充”,“原告有无其他证据提供”,等等。因此,通过提取出现频次大于预设频次阈值的语句,也就是提取高频语句,可以将原告有无补充”,“被告有无补充”,“原告有无其他证据提供”提取出来作为待选语句内容,并存入检索库中。这样,后续通过直接从检索库中选择,即可较为快捷准确的替代法官进行应答,这样,一定程度上可以在确保应答准确性的同时,节省司法资源,提高审判效率。
需要说明的是,司法审判场景中,也会存在相似性很小,针对特定任务的非通用语句。例如,针对借贷案件,原告说被告借了他的钱,法官可能会问关于具体借款金额的问题,比如问“借了你多少钱”。而针对偷窃案件,原告说被告偷了他的电脑,法官可能会问关于电脑信息的问题,比如问“电脑被偷之前放在什么地方”。针对特定任务的提问,往往无法用检索式确定出合适的回话。因此,本申请实施例中,通过将检索式和其他的语句生成模式,例如,序列生成式,结合。使得后续可以在能够使用检索式时,根据检索式快捷确定出语句内容,同时,在需要序列生成式时,可以根据序列生成式确定语句内容,进而在提高生成语句内容效率的同时,确保生成的语句内容的准确性。
进一步地,本申请实施例中,以记录有目标对象的对话语句历史对话样本来训练对话模型,使得训练得到的对话模型在与用户进行对话时,可以实现模拟现实世界中的目标对象与用户进行对话时的效果。可选的,目标对象可以为司法审判人员,例如,法官,历史对话样本可以为记录有司法审判人员的对话语句的数据,例如,记录案件审判过程中所有参与人员(含法官)所说话语的司法庭审笔录,在这种情况下,通过司法庭审笔录训练可以模拟法官与其他参与人员进行对话的对话模型,使得该对话模型可以在司法审判过程中辅助法官,例如,可以在法庭中设置搭载该对话模型的设备,通过该设备根据其他参与人员的陈述、提供的证据,模拟法官输出语句内容,做出应答,以实现案件审理。这样,通过辅助审理,可以节省司法资源,提高司法审判的效率,为实现智能法庭,建设“智慧法院”提供基础。
需要说明的是,在该过程中,真实的法官可以在该设备输出的语句内容不够准确的情况下,进行纠正,或者在输出的语句内容不够全面的情况下,进行补充,以确保审判的准确性。当然,在对话模型的精度足够高的情况下,可以无需真实法官参与,直接使用设置搭载该对话模型的设备模拟法官,完成司法审判。
可选的,步骤202可以包括:
子步骤2021,将所述历史对话样本划分为多个对话片段,每个对话片段中包括所述目标对象所说的语句。
本申请实施例中,可以先确定历史对话样本中目标对象所说的语句所在位置信息,然后根据位置信息进行划分,以确保每个对话片段中至少包括目标对象所说的语句。
可选的,本步骤中划分得到的对话片段可以是最后一句为目标对象所说语句的对话片段。这些对话片段可以用于构建对话模型的训练样本对。训练样本对可以包括样本输入文本和样本输出内容。
具体的,可以通过下述操作划分对话片段:可以先将所述历史对话样本划分为第一对话片段;所述第一对话片段包含的语句数量不小于m。
本申请实施例中,m越大,最后构建的训练样本对的内容往往越多,相应地,后续模型训练过程中,需要处理的数据量往往越大,针对一个训练样本对处理时,占用的处理资源会越多。反之,m越小,最后构建的训练样本对的内容往往越少,相应地,后续模型训练过程中,需要处理的数据量往往越小,针对一个训练样本对处理时,占用的处理资源会越少。因此,在设置m时,可以根据实际情况设置,例如,m可以为10。
示例的,在划分时,可以先确定每个语句对应的文本,然后将m个语句对应的文本作为一个第一对话片段。示例的,可以通过文本划分算法,定位文本中句子结束符,例如,句号,所在的位置,然后将句子结束符之间的文本,作为一个句子。接着,将每连续的m个句子划分至一个第一对话片段,进而得到历史对话样本中包括的多个第一对话片段。
接着,从所述第一对话片段中筛选包含至少n个所述目标对象所说语句的备选对话片段;所述n小于所述m。
本申请实施例中,n的具体值可以根据实际情况设置,例如,n可以为5。具体的,筛选备选对话片段时,可以通过文本识别技术分析各个语句的语言特点,根据语言特点,确定各个语句对应的说话主体。最后,将对话片段中说话主体为目标对象的语句的数量不小于5的第一对话片段确定为备选对话片段。
最后,将备选对话片段中最后一句为目标对象所说语句的备选对话片段,作为最终划分得到的对话片段。示例的,可以参照前述步骤中确定出的各个语句对应的说话主体,选择最后一个语句的说话主体为目标对象的备选对话片段。
步骤2022,使用所述多个对话片段作为训练数据,训练所述对话模型。
可选的,步骤2022可以包括:
步骤20221,根据对话片段获取训练样本对。
示例的,对话片段可以为包含的语句数量不小于m且目标对象所说语句不小于n的片段,相应地,本申请实施例中,可以从对话片段中选择一个目标对象所说的语句,例如,任选一句,或者是选择目标对象最后所说的一句话,作为样本输出内容,将对话片段中的其他语句作为样本输入文本。本申请实施例中,通过选择包含的语句数量不小于m且目标对象所说语句不小于n的对话片段,一定程度上可以确保对话片段中包含足够的与目标对象进行对话时的对话上下文信息,进而可以使根据对话片段构建的训练样本对可以提供足够的关于目标对象在进行对话时的对话特征,确保训练的对话模型模拟目标对象进行对话时的准确性。
进一步地,对话片段可以为包含的语句数量不小于m且目标对象所说语句不小于n的片段,且最后一句话为目标对象所说语句的片段。相应地,可以将对话片段中的最后一个语句作为样本输出对话,将除所述样本输出对话之外的语句作为样本输入文本,获得所述训练样本对。在对话片段为多个时,训练样本对可以对应为多个。示例的,可以选择最后一句为法官所说的话的对话片段作为样本对话片段,并将样本对话片段中法官所说的话作为样本输出内容,将其他语句作为样本输入文本,构建训练样本对。
如果对话片段中的最后一个语句为目标对象所说的语句,则可以认为最后一个语句是通过对话片段中的语句进行对话之后,目标对象最终所说的话,因此,筛选这种对话片段作为样本对话片段,并根据样本对话片段,获取训练样本对的方式,可以使得训练样本对可以提供更为一个对话场景下更为完整全面的对话特征,进而可以进一步提高根据训练样本对训练的对话模型的准确性。
本申请实施例中,根据记录有目标对象的对话语句的历史对话样本获取训练样本对的过程中,这样,无需耗费大量人力物力去标注语料,通过对记录有目标对象的对话语句的历史对话样本,进行识别、划分、提取,即可得到用于训练模型的训练样本对,可以节省实现成本。
步骤20222,根据所述训练样本对和所述检索库训练初始模型,获取所述对话模型。
本申请实施例中,通过获取检索库及训练样本对,根据检索库及训练样本对训练对话模型,使得后续训练得到的对话模型可以具备使用检索式确定语句内容的能力,由于检索式是通过从已有的待选语句内容中进行选择来实现确定语句内容,相较于直接生成的方式,所耗费的处理资源往往更少,耗时更短。因此,本申请实施例中,通过在至少两种待选语句生成模式中设置检索式,并根据检索库及训练样本对训练对话模型,一定程度上可以节约处理资源,提高处理效率。
可选的,步骤20222可以包括步骤:
步骤20222a,根据所述初始模型中的选择层及所述样本输入文本的第一数据向量,确定与所述样本输入文本相匹配的样本语句生成模式。
可选的,本申请实施例中还可以通过在步骤20222a之前执行下述步骤实现确定第一数据向量:
子步骤(1),根据所述初始模型的编码层中的长短期记忆网络,确定所述样本输入文本中文本片段的第一片段向量。
本申请实施例中,编码层可以用于将数据向量化,获取数据的特征。长短期记忆网络(Long Short-Term Memory,LSTM),又称为特殊递归神经网络,可以用于解决自然语言处理中会忽略之前词语的问题。样本输入文本中的数据片段指的是样本输入文本中的部分数据。例如,样本输入文本可以为样本输入文本,输入文本中的文本片段可以为样本输入文本中包含的词语。第一片段向量可以为词语的词向量。
确定第一片段向量时,可以将样本输入文本划分为文本片段,例如,通过分词技术,将样本输入文本分割为多个词语。对数据片段编码,比如,将其向量化,得到数据片段的初始片段向量,例如,通过词嵌入(word embedding)算法,获取每个词语的初始词语向量。其中获取初始片段向量的操作可以是通过LSTM网络实现的。接着,可以分词数据片段的初始片段向量依次输入至LSTM网络中的隐藏层,其中,LSTM网络可以记住之前的处理结果,把之前的处理结果短暂的存储起来,在进行下一轮的处理时,可以将下一轮的输入与之前的输出结果相结合,作为新一轮处理的输入,来确定新一轮处理的输出。
例如,在针对一个样本输入文本中文本片段的处理过程中,LSTM网络中的神经元可以对第i个初始片段向量进行i轮处理,并将记忆的前i轮的处理结果与第i+1个初始片段向量拼接,然后利用预设的权重,获取拼接后的向量的部分内容,作为第i+1轮处理的输入进行处理,处理后的输出结果即为第i+1个第一片段向量。这样,通过在训练过程中结合每一轮的处理结果来确定第一片段向量,使得初始模型可以在训练过程中学习到使最终得到的第一片段向量在包含数据片段本身信息的同时,还具有之前数据片段的部分信息,可以体现前后文的关联,更具代表性的能力。这样,可以使得后续过程中可以使用训练得到的对话模型确定出更具代表性的片段向量,进而提高对话模型的处理效果。
需要说明的是,在使用LSTM网络进行处理之前,还可以先定义LSTM网络的网络参数[batch,ength,hidden]。其中,batch代表每个训练批次中最大可输入LSTM网络的样本输入文本的数量,length代表输入序列的长度,hidden代表LSTM隐藏层的数量,通常可以为300。
子步骤(2),根据所述初始模型的注意力层及所述第一片段向量,确定所述第一数据向量。
本申请实施例中,注意力层的参数可以包括注意力权重矩阵,注意力权重矩阵的维度可以与样本输入文本中文本片段的维度相同,生成第一数据向量时,可以结合样本输入文本中所有数据片段的第一片段向量及注意力权重矩阵计算第一数据向量。该第一数据向量是对样本输入文本的向量化表示。由于样本输入文本中的数据片段存在上下文关联,因此,在训练过程中,结合注意力层及第一片段向量生成第一数据向量,使得注意力层在训练过程中可以学习到正确的注意力权重分布,进而可以使得后续过程中训练好的对话模型可以准确的利用上下文信息确定输入文本的向量。需要说明的是,在注意力层的处理过程中,第一片段向量的维度不会被改变。
可选的,所述对话模型中的参数可以包括所述选择层中的模式分布矩阵,子步骤20222a可以包括子步骤:
子步骤(3),根据所述第一数据向量及所述模式分布矩阵,计算所述选择层的输出值。
本申请实施例中,在对初始模型进行第一轮训练时,初始模型的选择层中模式分布矩阵的内容,可以是通过随机初始化确定的。模式分布矩阵的维度可以与第一数据向量的维度相同,以方便根据两者确定输出值。
计算输出值时,可以使用第一数据向量与模式分布矩阵进行矩阵相乘,然后将矩阵相乘结果映射到预设数值分布中。最后将映射后的值确定为输出值。其中,预设数值分布可以是根据实际情况设置的,例如,可以设置为0,1分布,每个预设数值可以对应有预设的取值条件,进行映射时,可以判断矩阵相乘结果是否满足预设数值对应的取值条件,若满足,则将该预设数值确定为输出值。假设满足预设数值1对应的取值条件,则可以确定输出值为1,假设满足预设数值0对应的取值条件,则可以确定输出值为0。
子步骤(4),将所述输出值所指示的语句生成模式,确定为所述样本语句生成模式。
本申请实施例中,不同输出值所指示的语句生成模式可以不同,每个输出值所指示的语句生成模式可以是预先设置的。例如,可以设置0所指示的语句生成模式可以为检索式,1所指示的语句生成模式可以为序列生成式。或者,可以设置1所指示的语句生成模式可以为检索式,0所指示的语句生成模式可以为序列生成式,本申请实施例对此不作限定。
确定样本语句生成模式时,可以根据预先设置输出值与所指示的语句生成模式之间的对应关系,确定该输出值对应的语句生成模式,以作为样本语句生成模式。
本申请实施例中,在初始模型中设置选择层,在训练过程中,通过选择层中的模式分布矩阵,选择相匹配的语句生成模式,在后续对初始模型不断训练中,使选择层可以学习到正确的模式分布矩阵,进而具备正确选择出相匹配的语句生成模式的能力。这样,可以确保后续使用训练好的对话模型可以准确的根据输入文本,选择出与输入文本相匹配的语句生成模式,进而确保生成的语句内容的准确性。
步骤20222b,根据所述初始模型中的生成层及所述样本语句生成模式,为所述样本输入文本确定预测语句内容;所述检索库用于在所述样本语句生成模式为所述检索式时,生成所述预测语句内容。
本申请实施例中,预测语句内容可以是当前的初始模型根据样本输入文本给出的语句内容。预测语句内容的准确性可以体现初始模型当前的处理能力。
可选的,步骤20222b可以包括子步骤:
子步骤(5),在所述样本语句生成模式为检索式的情况下,根据所述生成层、所述第一数据向量及所述检索库,确定预测语句内容。
本步骤中,可以将第一数据向量作为生成层的输入,生成层可以根据第一数据向量及检索库,从检索库中选择语句内容作为预测语句内容。
可选的,子步骤(5)可以包括:
子步骤(51),根据所述生成层中的概率分布矩阵或深度结构化语义算法、所述第一数据向量及所述检索库中待选语句内容的向量,计算所述待选语句内容的概率值。
本申请实施例中,在对初始模型进行第一轮训练时,生成层中的概率分布矩阵的内容,可以是通过随机初始化确定的。概率分布矩阵的维度、第一数据向量的维度以及待选语句内容的向量可以相同,这样,可以方便计算。
待选语句内容的向量是预先生成的也可以在执行本步骤时生成,本申请实施例对此不作限定。示例的,可以在建立检索库之后,对检索库中的待选语句内容进行向量化,得到待选语句内容的向量。对于检索库中的每个待选语句内容,可以先获取待选语句内容的向量,然后,根据概率分布矩阵、第一数据向量及待选语句内容的向量进行矩阵运算,例如,对概率分布矩阵和待选语句内容的向量进行矩阵相乘,然后对相乘结果与第一数据向量进行矩阵相加,或者,直接矩阵相乘,等等。然后可以对矩阵运算结果进行归一化,例如,通过将矩阵运算结果作为归一化函数(softmax)的输入,得到该待选语句内容的概率值。
进一步地,深度结构化语义算法(Deep Structured Semantic Models,DSSM)可以用于衡量两个数据之间的语义相似度。根据DSSM算法计算概率值时,可以将第一数据向量及待选语句内容的向量作为输入,DSSM算法可以基于输入中包含的数据片段的向量,生成第一数据向量及待选语句内容的向量各自对应的低维语义向量。接着,可以计算这两个低维语义向量之间的距离,例如,余弦距离。利用softmax函数把两者距离转化为一个概率值。
子步骤(52),将概率值满足预设条件的待选语句内容,确定为所述预测语句内容。
其中,预设条件可以是根据实际情况设置,例如,预设条件可以为概率值最大。相应地,本步骤中,可以选择概率值最大的待选语句内容作为预测语句内容。
本申请实施例中,通过在训练过程中,根据生成层中的概率分布矩阵或深度结构化语义算法计算概率值,将概率值满足预设条件的待选语句内容,确定为预测语句内容。在后续对初始模型不断训练中,可以使生成层学习到正确的概率分布矩阵或正确的深度结构化语义算法中的参数,进而具备正确计算语句内容的能力。这样,可以确保后续使用训练好的对话模型可以准确的根据检索式选择出语句内容,进而可以确保回话的准确性。
子步骤(6),在所述样本语句生成模式为序列生成式的情况下,根据所述生成层及所述第一数据向量,确定预测语句内容。
本申请实施例中,可以将第一数据向量作为生成层,生成层可以基于自然语言生成技术实现根据第一数据向量确定预测语句内容。
可选的,子步骤(6)可以包括:
子步骤(61),根据所述生成层中的序列到序列算法,对所述第一数据向量进行解码,得到所述预测语句内容。
其中,序列到序列(Seq2Seq)算法可以将一个作为输入的序列映射为一个作为输出的序列。在本步骤中,可以将第一数据向量作为Seq2Seq算法的输入序列,Seq2Seq算法可以通过序列神经网络(Recurrent Neural Network,RNN)解码器对第一数据向量进行解码。示例的,解码的过程可以理解为运用集束搜索,返回第一数据向量对应的各个数据片段对应的目标数据片段,其中,目标数据片段可以是从预设数据库中的数据中搜索的,目标数据片段指的是与该数据片段的匹配度大于预设阈值的至少一个数据片段,也可以是按照匹配度由高到底排序,排序靠前的至少一个数据片段。这些目标数据片段组成的输出序列即为预测语句内容。
本申请实施例中,通过在训练过程中,根据生成层中的序列到序列算法确定预测语句内容。在后续对初始模型不断训练中,可以使生成层学习到正确的序列到序列算法中的参数,进而具备正确计算语句内容的能力。这样,可以确保后续使用训练好的对话模型可以准确的根据序列生成式确定出语句内容,进而可以确保生成的语句内容的准确性。
步骤20222c,根据所述预测语句内容及所述样本输出内容,调整所述初始模型的参数,在训练结束后获得所述对话模型。
本申请实施例中,如果预测语句内容越接近目标对象根据样本输入文本所说的样本输出内容,则可以说明预测语句内容越准确,初始模型的能力越强。根据预测语句内容及样本输出内容可以体现出初始模型当前的偏差,因此,本申请实施例中,可以根据预测语句内容及样本输出内容,调整初始模型的参数,以优化初始模型。在调整之后,可以继续对调整之后的初始模型进行新一轮的训练,比如,利用初始模型重复执行上述训练过程中的操作,直到初始模型收敛,则可以认为训练结束,初始模型具备了可以准确选择出与输入文本相匹配的语句生成模式,根据相匹配的语句生成模式确定出准确的语句内容的能力,这种情况下,可以将初始模型确定为对话模型,以确保后续能够使用对话模型准确的确定出语句内容。
可选的,调整参数的操作可以通过下述子步骤实现:
子步骤(7),根据所述选择层的损失函数、所述生成层的损失函数、所述预测语句内容及所述样本输出内容,确定所述选择层的第一损失值及所述生成层的第二损失值。
本申请实施例中,选择层的损失函数及生成层的损失函数可以是根据实际需求设置的,例如,两者的损失函数可以均为交叉熵损失函数。
确定第一损失值时,可以先根据预测语句内容及样本输出内容,确定对比输出值。具体的,预测语句内容与样本输出内容的相似度越高,则可以认为预测语句内容的准确度越高,选择层在本轮过程中选择的语句生成模式的正确程度越高,因此,可以先计算预测语句内容与样本输出内容的相似度,然后,根据相似度,生成能够体现正确程度的对比输出值;其中,对比输出值与选择层在本轮过程中确定的输出值,即上述子步骤B1中确定的输出值,之间的差值的绝对值与相似度负相关。接着,可以将对比输出值以及上述输出值作为选择层的损失函数的输入,将该选择层的损失函数的输出作为第一损失值。
确定第二损失值时,可以将预测语句内容及样本输出内容作为生成层的损失函数的输入,将生成层的损失函数的输出作为第二损失值。
子步骤(8),根据所述第一损失值及所述第二损失值,确定所述初始模型的损失值。
可选的,可以将第一损失值及第二损失值之和作为初始模型的损失值,或者,将第一损失值及第二损失值的乘积作为初始模型的损失值,等等,只要确保最终确定出的初始模型的损失值与第一损失值及第二损失值正相关即可。
子步骤(9),根据所述损失值调整所述初始模型中的参数。
本申请实施例中,可以根据损失值,通过随机梯度下降法对初始模型中的参数进行调整,比如,对编码层中长短期记忆网络中的参数、注意力层中的注意力权重矩阵、选择层中的模式分布矩阵、生成层中的概率分布矩阵或深度结构化语义算法中的参数、生成层中的序列到序列算法的参数进行调整。这样,可以使调整后的初始模型向梯度最小方向,比如,损失值最小的方向靠近。通过不断训练初始模型,可以使初始模型不断靠近梯度最小方向,进而使初始模型收敛。
本申请实施例中,通过分别计算选择层的第一损失值及生成层的第二损失值,根据这两个损失值确定初始模型的损失值,联合训练调整初始模型中的参数。由于初始模型的损失值是根据选择层的损失值及生成层的损失值确定,因此,根据初始模型的损失值调整所参数时,一定程度上提高可以对选择层及生成层的调整精度,进而提高对选择层及生成层的优化效果。
需要说明的是,在本申请的另一可选实施例中,也可以将选择层、生成层中用于在检索式下确定语句内容的部分、生成层中用于在序列生成式下确定语句内容的部分作为3个独立的模型分别训练,最后得到模式选择模型、用于在检索式下确定语句内容的第一生成模型及用于在序列生成式下确定语句内容的第二生成模型。相应地,后续确定输入文本的语句内容时,可以先根据模式选择模型,确定输入文本相匹配的语句生成模式,在语句生成模式为检索式的情况下,根据第一生成模型为输入文本生成语句内容,在相匹配的语句生成模式为序列生成式的情况下,根据第二生成模型为输入文本生成语句内容。
由于为输入文本生成语句内容的流程中,选择相匹配的语句生成模式的操作与根据语句生成模式确定语句内容的操作,往往会顺序执行,也就是说两者可能存在一定的关联性,相较于将选择层与生成层拆分为独立的模型,分别进行训练的方式,本发明实施例中,通过将选择层与生成层作为初始模型中的部分,通过对初始模型进行训练,实现对选择层与生成层一起训练,由于一起的训练过程中可以累计生成层与判别层的损失值,这样,通过损失值调整参数时,通过同时兼顾到生成层与判别层,进而一定程度上可以提高最终训练得到的对话模型的准确率。
步骤203,获取输入文本。
该步骤可以参照上述步骤101,此处不再赘述。
可选的,根据输入文本,确定与输入文本相匹配的语句生成模式的操作可以通过下述步骤204实现:
步骤204,根据所述输入文本及所述对话模型,确定与所述输入文本相匹配的语句生成模式。
可选的,步骤204可以包括步骤:
步骤2041,根据所述输入文本的第二数据向量以及所述对话模型的选择层中的模式分布矩阵,计算所述选择层的输出值。
步骤2042,将所述输出值所指示的语句生成模式,确定为所述相匹配的语句生成模式。
具体的步骤2041及2042的具体实现方式可以参照上述子步骤(3)及(4)中的描述。经过前述训练,对话模型中的选择层在训练过程中已经学习到了正确的模式分布矩阵,具备了正确选择出相匹配的语句生成模式的能力。因此,本申请实施例中,可以根据对话模型的选择层确定出正确的相匹配的语句生成模式,进而可以确保后续生成的语句内容的准确性。
可选的,本申请实施例中还可以通过在步骤2041之前执行下述操作确定第二数据向量:根据所述对话模型中编码层中的长短期记忆网络,确定所述输入文本中文本片段的第二片段向量。根据所述对话模型的注意力层及所述第二片段向量,确定所述第二数据向量。这两个操作的具体实现方式可以参照上述子步骤(1)及(2)中的描述。经过前述训练,对话模型中的编码层及注意力层在训练过程中已经学习到正确确定出第二片段向量、第二数据向量的能力。因此,本申请实施例中,可以根据对话模型中编码层中的长短期记忆网络确定出更具代表性的第二片段向量,根据注意力层准确的利用上下文信息确定输入文本的第二数据向量。
可选的,根据所述语句生成模式,为所述输入文本生成语句内容的操作可以通过下述步骤205实现:
步骤205,根据所述语句生成模式及所述对话模型,为所述输入文本生成语句内容。
可选的,本申请实施例中,还可以在语句内容为文本类型的数据的情况下,显示语句内容,和/或,播放语句内容对应的音频。这种,可以使用户能够便捷的接收到语句内容中的信息。
可选的,该语句生成模式包括但不限于:序列生成式,和/或,检索式。相应地,如果所述语句生成模式为检索式,则根据所述输入文本在预处理的检索库中选择语句内容。
具体的,在所述语句生成模式为检索式的情况下,可以根据所述对话模型中的生成层、所述输入文本的第二数据向量及所述检索库,确定语句内容。
根据所述对话模型中的生成层、所述输入文本的第二数据向量及所述检索库,确定语句内容可以包括以下步骤:根据所述生成层中的概率分布矩阵或深度结构化语义算法、所述第二数据向量及所述检索库中待选语句内容的向量,计算所述待选语句内容的概率值。将概率值满足预设条件的待选语句内容,确定为所述语句内容。具体的上述步骤的具体实现方式可以参照前述步骤中的相关描述。本申请实施例中,经过前述训练,使得对话模型中的生成层学习到了正确的概率分布矩阵或正确的深度结构化语义算法中的参数,具备了正确计算语句内容的能力。因此,通过对话模型可以在检索式下选择出准确的语句内容。
如果所述语句生成模式为检索式,则根据所述输入文本数据在预处理的检索库中选择语句内容。
具体的,在所述相匹配的语句生成模式为序列生成式的情况下,可以根据所述对话模型中的生成层及所述输入文本的第二数据向量,确定语句内容。其中,根据所述对话模型中的生成层及所述输入文本的第二数据向量,确定语句内容可以包括步骤:根据所述生成层中的序列到序列算法,对所述第二数据向量进行解码,得到所述语句内容。具体的上述步骤的具体实现方式可以参照前述步骤中的相关描述。本申请实施例中,经过前述训练,使得对话模型中的生成层学习到了正确的序列到序列算法,具备了正确计算语句内容的能力。因此,通过对话模型可以在序列生成式下确定出准确的语句内容。
进一步地,如果相匹配的语句生成模式为序列生成式和检索式,那么可以先按照序列生成式和检索式,分别生成第一备选语句内容和第二备选语句内容,接着,按照预设权重,对第一备选语句内容和第二备选语句内容进行融合,得到为输入文本生成的语句内容。
可选的,在本申请实施例的一种应用场景中,本申请实施例中的输入文本可以为电商平台中用户投诉的投诉数据。相应地,根据相匹配的语句生成模式,为输入文本生成语句内容之后,还可以执行下述步骤E:根据所述语句内容,确定与所述用户投诉相匹配的处罚规则,并依据所述处罚规则进行投诉处理。
其中,投诉数据可以表征对用户在使用电商平台过程中遇到的不公平对待事件的具体描述,投诉数据可以是根据用户投诉时候输入的文本,提交的音频或图片获取到的。进一步地,为输入文本确定的语句内容可以表征如何处理该用户投诉。在得到语句内容之后,可以将符合语句内容所表征的处理方式的处罚规则,确定为与用户投诉相匹配的处罚规则,并依据该处罚规则进行投诉处理。示例的,该应用场景的实现架构可以为上述图1C中示出的架构,用户可以通过终端设备S130将用户投诉的投诉数据发送给服务器S140,服务器S140可以根据用户投诉的投诉数据选择相匹配的语句生成模式,根据相匹配的语句生成模式生成语句内容,并根据语句内容,确定与用户投诉相匹配的处罚规则,并依据处罚规则进行投诉处理。
本申请实施例中,选择与输入的用户投诉的投诉数据相匹配的语句生成模式,根据该相匹配的语句生成模式生成语句内容,由于相匹配的语句生成模式与投诉数据更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高确定的处罚规则的准确性,提高投诉处理的准确性。可选的,在该应用场景中,选择相匹配的语句生成模式时使用的对话模型可以是根据记录有投诉数据及其对应的处罚方式的样本数据训练得到的。这样,可以确保该应用场景下使用对话模型选择的相匹配的语句生成模式的准确性。
可选的,在本申请实施例的一种应用场景中,本申请实施例中的输入文本可以为司法案件中参与人员的陈述数据。相应地,根据相匹配的语句生成模式,为输入文本生成语句内容之后,还可以执行下述步骤F:根据所述语句内容,输出模拟律师观点的陈述内容。
其中,参与人员可以为原告、被告、证人、对方律师、法官,等等。参与人员的陈述数据可以用于表征参与人员在该司法案件的审理过程中的相关陈述。由于律师往往是根据其他参与人员的相关陈述,进行陈述以输出自己的观点。相应地,为司法案件中参与人员的陈述数据确定的语句内容即可表征律师观点的陈述内容。具体的,可以通过显示语句内容,和/或播放语句内容对应的音频,实现输出模拟律师观点的陈述内容。
参照图6,其示出了本申请一实施例的又一种场景示意图,该场景中的用户S610可以为司法案件中的参与人员:原告、被告、法官及证人,终端设备S620中可以搭载有原告的智能律师助理a,终端设备S630中可以搭载有被告的智能律师助理b,终端设备S620、S630可以根据原告/被告、法官或证人所陈述的内容、提供的证据,获取输入文本,然后根据输入文本,确定与所述输入文本相匹配的语句生成模式,根据该语句生成模式,为输入文本生成语句内容。最后根据语句内容,输出模拟律师观点的陈述内容。在该应用场景中,通过智能律师助理模拟律师进行陈述,一定程度上可以节约司法资源,提高审判效率。
本申请实施例中,从选择与输入的参与人员的陈述数据相匹配的语句生成模式,根据该语句生成模式生成语句内容,由于相匹配的语句生成模式与参与人员的陈述数据更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高输出的模拟律师观点的陈述内容的准确性。可选的,在该应用场景中,选择相匹配的语句生成模式时使用的对话模型可以是根据记录有参与人员的陈述数据及其对应的律师陈述内容的样本数据训练得到的。这样,可以确保该应用场景下使用对话模型选择的相匹配的语句生成模式的准确性。
可选的,在一种应用场景中,本申请实施例中的输入文本可以为司法案件的案情数据。相应地,根据相匹配的语句生成模式,为输入文本生成语句内容之后,还可以执行下述步骤G:根据所述语句内容,输出针对所述司法案件的庭审预案。
其中,案情数据可以用于表征该司法案件的具体案件情况。由于有些司法案件的案情较为复杂,为了提高案件实际审理时的效率,往往会在庭审之前,根据案件的具体情况制定庭审预案。相应地,为案情数据确定的语句内容可以表征针对该司法案件可以采取的预案。相应地,可以将该语句内容作为庭审预案,通过显示语句内容,和/或播放语句内容对应的音频,实现输出针对该司法案件的庭审预案。可选的,该应用场景的实现架构图可以为上述图1A中示出的架构图,用户可以将司法案件的案情数据发送给智能对话机器人S120,智能对话机器人S120可以根据司法案件的案情数据选择相匹配的语句生成模式,根据相匹配的语句生成模式确定语句内容,并根据语句内容,输出针对所述司法案件的庭审预案。
本申请实施例中,选择与输入的案情数据相匹配的语句生成模式,根据该语句生成模式生成语句内容,由于相匹配的语句生成模式与案情数据更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高输出的司法案件的庭审预案的准确性。可选的,在该应用场景中,选择相匹配的语句生成模式时使用的对话模型可以是根据记录有案情数据及其对应的庭审预案的样本数据训练得到的。这样,可以确保该应用场景下使用对话模型选择的相匹配的语句生成模式的准确性。
可选的,在一种应用场景中,本申请实施例中的输入文本可以为企业涉及的法律事务的相关数据。相应地,根据相匹配的语句生成模式,为输入文本生成语句内容之后,还可以执行下述步骤H:根据所述语句内容,输出针对所述法律事务的解决方案。
其中,企业涉及的法律事务的相关数据可以表征对该企业涉及的具体法律事务的具体描述。法律事务可以为合同纠纷、法律案件,等等。相应地,为法律事务的相关数据确定的语句内容可以表征如何处理该法律事务。示例的,可以将语句内容,作为针对该法律事务的解决方案。相应地,可以通过显示语句内容,和/或播放语句内容对应的音频,实现输出针对该法律事务的解决方案。可选的,该应用场景的实现架构图可以为上述图1A中示出的架构图,用户可以将法律事务的相关数据发送给智能对话机器人S120,智能对话机器人S120可以根据法律事务的相关数据选择相匹配的语句生成模式,根据相匹配的语句生成模式确定语句内容,并根据语句内容,输出针对法律事务的解决方案。
本申请实施例中,选择与输入的法律事务的相关数据相匹配的语句生成模式,根据相匹配的语句生成模式生成语句内容,由于相匹配的语句生成模式与法律事务的相关数据更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高输出的针对法律事务的解决方案的准确性。可选的,在该应用场景中,选择相匹配的语句生成模式时使用的对话模型可以是根据记录有法律事务的相关数据及其对应的解决方案的样本数据训练得到的。这样,可以确保该应用场景下使用对话模型选择的相匹配的语句生成模式的准确性。
可选的,在一种应用场景中,本申请实施例中的输入文本可以为存在纠纷的当事人的陈述数据。相应地,根据相匹配的语句生成模式,为输入文本生成语句内容之后,还可以执行下述步骤I:根据所述语句内容,对所述纠纷进行仲裁调解。
本申请实施例中,当事人的陈述数据可以表征对纠纷的具体描述。相应地,为存在纠纷的当事人的陈述数据确定的语句内容可以表征如何处理该纠纷。可以将语句内容,作为调解该纠纷的调节方案。纠纷调节机构可以根据该语句内容表征的调节方式对当事人进行仲裁调解。其中,纠纷调节机构可以为居委会、民政局、政务机构,等等。可选的,参照图7,其示出了本申请一实施例的再一种场景示意图,该场景中存在纠纷的当事人S710和当事人S720可以将陈述数据发送给智能对话机器人S730,智能对话机器人S730可以根据陈述数据确定与陈述数据相匹配的语句生成模式,根据相匹配的语句生成模式生成语句内容,并根据语句内容,对纠纷进行仲裁调解。
本申请实施例中,选择与输入的存在纠纷的当事人的陈述数据相匹配的语句生成模式,根据相匹配的语句生成模式生成语句内容,由于相匹配的语句生成模式与存在纠纷的当事人的陈述数据更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高仲裁调解的准确性。可选的,在该应用场景中,选择相匹配的语句生成模式时使用的对话模型可以是根据记录有存在纠纷的当事人的陈述数据及其对应的仲裁调解方式的样本数据训练得到的。这样,可以确保该应用场景下使用对话模型选择的相匹配的语句生成模式的准确性。
综上所述,本申请实施例提供的一种语句生成方法,包括:获取历史对话样本;历史对话样本记录有目标对象的对话语句;将历史对话样本中目标对象的高频语句进行抽取,形成检索库;利用历史对话样本训练对话模型;获取输入文本;根据输入文本及对话模型,确定与输入文本相匹配的语句生成模式;根据该语句生成模式及对话模型,为输入文本生成语句内容。本申请以记录有目标对象的对话语句的历史对话样本,训练具备选择相匹配的语句生成模式以及生成语句内容能力的对话模型,并通过该对话模型为输入文本选择相匹配的语句生成模式,以及根据相匹配的语句生成模式,为输入文本生成语句内容。这样,通过对话模型选择与输入文本相匹配的语句生成模式,根据语句生成模式生成语句内容,相较于直接使用固定的语句生成模式确定语句内容的方式,由于相匹配的语句生成模式与输入文本更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高对话模型的回话效果。同时,通过结合多种语句生成模式,一定程度上可以提高本方案的适用场景。
参照图8,示出了本申请的一种司法审判中的提问方法的步骤流程图。该方法具体可以包括如下步骤:
步骤301,获取司法案件的相关文本。
本申请实施例中,相关文本可以是根据参与人员,例如,原告,被告,律师,证人的陈述、提供的证据生成的。
步骤302,根据所述相关文本,确定与所述相关文本相匹配的语句生成模式。
该步骤可以参照上述步骤204,此处不再赘述。
步骤303,根据所述语句生成模式,为所述相关文本生成语句内容。
该步骤可以参照上述步骤205,此处不再赘述。
步骤304,根据所述语句内容,输出模拟提问;所述模拟提问用于模拟司法审判人员根据所述相关文本进行的提问。
本申请实施例中,由于司法审判场景中,司法审判人员,例如,法官往往都是根据其他参与人员的陈述、或提供的证据,以提问的方式进行应答。因此,根据相关文本确定的语句内容即可表示司法审判人员根据所述相关文本进行的提问。相应地,可以通过显示语句内容,和/或播放语句内容对应的音频,实现输出模拟提问。
综上所述,本申请实施例提供的一种司法审判中的提问方法,包括:获取司法案件的相关文本;根据相关文本,定与所述相关文本相匹配的语句生成模式;根据所述语句生成模式,为所述相关文本生成语句内容;根据语句内容,输出模拟提问;模拟提问用于模拟司法审判人员根据相关文本进行的提问。本申请通过先选择与司法案件的相关文本相匹配的语句生成模式,根据该语句生成模式生成语句内容,相较于直接使用固定的语句生成模式确定语句内容的方式,由于相匹配的语句生成模式与相关文本更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高输出的模拟提问的准确性。
参照图9,示出了本申请的一种智能客服的应答方法的步骤流程图。该方法具体可以包括如下步骤:
步骤401,获取用户输入的提问文本。
本申请实施例中,提问文本可以是根据用户输入的文本、发出的语音或录入的图像生成的。
步骤402,根据所述提问文本,确定与所述相关文本相匹配的语句生成模式。
该步骤可以参照上述步骤204,此处不再赘述。
步骤403,根据所述语句生成模式,为所述相关文本生成语句内容。
该步骤可以参照上述步骤205,此处不再赘述。
步骤404,根据所述语句内容,进行应答。
本申请实施例中,可以通过显示语句内容,和/或播放语句内容对应的音频,实现应答。
综上所述,本申请实施例提供的一种智能客服的应答方法,包括:获取用户输入的提问文本;根据所述提问文本,确定与所述相关文本相匹配的语句生成模式;根据所述语句生成模式,为所述相关文本生成语句内容;根据语句内容,进行应答。本申请通过先选择与提问数据相匹配的语句生成模式,根据该语句生成模式生成语句内容,相较于直接使用固定的语句生成模式确定语句内容的方式,由于相匹配语句生成模式与提问数据更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高客服应答的准确性。
参照图10,示出了本申请的一种语句生成装置的结构图,该装置可以包括:
第一获取模块501,用于获取输入文本;
确定模块502,用于根据所述输入文本,确定与所述输入文本相匹配的语句生成模式;
生成模块503,用于根据所述语句生成模式,为所述输入文本生成语句内容。
可选的,所述语句生成模式包括但不限于:序列生成式,和/或,检索式;
则所述生成模块503,具体用于:
如果所述语句生成模式为序列生成式,则根据所述输入文本生成所述语句内容;
如果所述语句生成模式为检索式,则根据所述输入文本在预处理的检索库中选择所述语句内容。
可选的,通过如下模块得到所述预处理的检索库:
第二获取模块,用于获取历史对话样本;
抽取模块,用于将所述历史对话样本中的高频语句进行抽取,形成所述检索库。
可选的,所述历史对话样本记录有目标对象的对话语句;所述装置还包括:
训练模块,用于利用所述历史对话样本训练对话模型。
可选的,所述训练模块,具体用于:
将所述历史对话样本划分为多个对话片段,每个对话片段中包括所述目标对象所说的语句;
使用所述多个对话片段作为训练数据,训练所述对话模型。
可选的,所述目标对象为司法审判人员,所述历史对话样本记录有所述司法审判人员的对话语句。
可选的,所述对话模型包括至少两种语句生成模式,以及用于从至少两种所述语句生成模式中确定与输入文本相匹配的语句生成模式的选择层。
可选的,所述对话模型包括序列生成式和检索式;
可选的,所述训练模块,包括:
第一获取子模块,用于根据所述历史对话样本获取训练样本对;所述训练样本对包括样本输入文本和样本输出内容;
第二获取子模块,用于根据所述训练样本对和所述检索库训练初始模型,获取所述对话模型;其中,所述检索库与所述对话模型中的检索式对应。
可选的,所述抽取模块,包括:
统计单元,用于统计所述历史对话样本中所述目标对象所说语句的出现频次;
第一确定单元,用于将出现频次大于预设频次阈值的语句,确定为待选语句内容;
获取单元,用于根据所述待选语句内容,获取所述检索库。
可选的,所述第一获取子模块,包括:
划分单元,用于将所述历史对话样本划分为第一对话片段;所述第一对话片段包含的语句数量不小于m;
筛选单元,用于从所述第一对话片段中筛选包含至少n个所述目标对象所说语句的对话片段,作为备选对话片段;所述n小于所述m;
构建单元,用于根据所述备选对话片段构建所述训练样本对。
可选的,所述构建单元,包括:
筛选子单元,用于从所述备选对话片段中筛选最后一个语句为所述目标对象所说的语句备选对话片段,作为述样本对话片段;
第一确定子单元,用于将所述样本对话片段中的最后一个语句作为样本输出内容,将除所述样本输出对话之外的语句作为样本输入文本,获得所述训练样本对。
可选的,所述对话模型还包括生成层;所述第二获取子模块,包括:
第二确定单元,用于根据所述初始模型中的选择层及所述样本输入文本的第一数据向量,确定与所述样本输入文本相匹配的样本语句生成模式;
第三确定单元,用于根据所述初始模型中的生成层及所述样本语句生成模式,为所述样本输入文本生成预测语句内容;所述检索库用于在所述样本语句生成模式为所述检索式时,生成所述预测语句内容;
调整单元,用于根据所述预测语句内容及所述样本输出内容,调整所述初始模型的参数,在训练结束后获得所述对话模型。
可选的,在所述生成层包括检索式和序列生成式的情况下,所述第三确定单元,包括:
第二确定子单元,用于在所述样本语句生成模式为检索式的情况下,根据所述生成层、所述第一数据向量及所述检索库,生成预测语句内容;
第三确定子单元,用于在所述样本语句生成模式为直接生成模式的情况下,根据所述生成层及所述第一数据向量,确定预测语句内容。
可选的,所述参数包括所述选择层中的模式分布矩阵;所述第二确定单元,包括:
计算子单元,用于根据所述第一数据向量及所述模式分布矩阵,计算所述选择层的输出值;
第四确定子单元,用于将所述输出值所指示的语句生成模式,确定为所述样本语句生成模式。
可选的,所述调整单元,包括:
第五确定子单元,用于根据所述选择层的损失函数、所述生成层的损失函数、所述预测语句内容及所述样本输出内容,确定所述选择层的第一损失值及所述生成层的第二损失值;
第六确定子单元,用于根据所述第一损失值及所述第二损失值,确定所述初始模型的损失值;
调整子单元,用于根据所述损失值调整所述初始模型中的参数。
可选的,所述第二确定子单元,具体用于:
根据所述生成层中的概率分布矩阵或深度结构化语义算法、所述第一数据向量及所述检索库中待选语句内容的向量,计算所述待选语句内容的概率值;
将概率值满足预设条件的待选语句内容,确定为所述预测语句内容;
所述第三确定子单元,具体用于:
根据所述生成层中的序列到序列算法,对所述第一数据向量进行解码,得到所述预测语句内容。
可选的,还包括:
第四确定单元,用于根据所述初始模型的编码层中的长短期记忆网络,确定所述样本输入文本中文本片段的第一片段向量;
第五确定单元,用于根据所述初始模型的注意力层及所述第一片段向量,确定所述第一数据向量。
可选的,所述第一确定模块502,包括:
计算子模块,用于根据所述输入文本的第二数据向量以及所述对话模型的选择层中的模式分布矩阵,计算所述选择层的输出值;
第一确定子模块,用于将所述输出值所指示的语句生成模式,确定为与所述输入文本相匹配的语句生成模式。
可选的,所述第二确定模块503,包括:
第二确定子模块,用于在所述相匹配的语句生成模式为检索式的情况下,根据所述对话模型中的生成层、所述输入文本的第二数据向量及所述检索库,生成所述语句内容;
第三确定子模块,用于在所述相匹配的语句生成模式为序列生成式的情况下,根据所述对话模型中的生成层及所述输入文本的第二数据向量,生成所述语句内容。
可选的,所述第二确定子模块,包括:
计算单元,用于根据所述生成层中的概率分布矩阵或深度结构化语义算法、所述第二数据向量及所述检索库中待选语句内容的向量,计算所述待选语句内容的概率值;
第六确定单元,用于将概率值满足预设条件的待选语句内容,确定为所述语句内容;
所述第三确定子模块,包括:
解码单元,用于根据所述生成层中的序列到序列算法,对所述第二数据向量进行解码,得到所述语句内容。
可选的,还包括:
第四确定子模块,用于根据所述对话模型中编码层中的长短期记忆网络,确定所述输入文本中文本片段的第二片段向量;
第五确定子模块,用于根据所述对话模型的注意力层及所述第二片段向量,确定所述第二数据向量。
可选的,在所述语句内容为文本类型的数据的情况下,还包括:
显示模块,用于显示所述语句内容,和/或,播放模块,用于播放所述语句内容对应的音频。
可选的,所述目标对象为司法审判人员,所述历史对话样本记录有所述司法审判人员的对话语句。
可选的,所述输入文本为电商平台中用户投诉的投诉数据;所述装置还包括:投诉处理模块,用于根据所述语句内容,确定与所述用户投诉相适配的处罚规则,并依据所述处罚规则进行投诉处理。
可选的,所述输入文本为司法案件中参与人员的陈述数据;所述装置还包括:第一输出模块,用于根据所述语句内容,输出模拟律师观点的陈述内容。
可选的,所述输入文本为司法案件的案情数据;所述装置还包括:第二输出模块,用于根据所述语句内容,输出针对所述司法案件的庭审预案。
可选的,所述输入文本为企业涉及的法律事务的相关数据;所述装置还包括:第三输出模块,用于根据所述语句内容,输出针对所述法律事务的解决方案。
可选的,所述输入文本为存在纠纷的当事人的陈述数据;所述装置还包括:调解模块,用于根据所述语句内容,对所述纠纷进行仲裁调解。
综上所述,本申请实施例提供的一种语句生成装置,通过先选择与输入文本相匹配的语句生成模式,根据该语句生成模式生成语句内容,相较于直接使用固定的语句生成模式确定语句内容的方式,由于相匹配的语句生成模式与输入文本更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高对话效果。
参照图11,示出了本申请的一种司法审判中的提问装置的结构图,该装置可以包括:
获取模块601,用于获取司法案件的相关文本;
确定模块602,用于根据所述相关文本,确定与所述相关文本相匹配的语句生成模式;;
生成确定模块603,用于根据所述语句生成模式,为所述相关文本生成语句内容;
输出模块604,用于根据所述语句内容,输出模拟提问;所述模拟提问用于模拟司法审判人员根据所述相关文本进行的提问。
综上所述,本申请实施例提供的一种司法审判中的提问装置,通过先选择与司法案件的相关文本相匹配的语句生成模式,根据该语句生成模式生成语句内容,相较于直接使用固定的语句生成模式确定语句内容的方式,由于该语句生成模式与输入文本更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高输出的模拟提问的准确性。
参照图12,示出了本申请的一种智能客服的应答装置的结构图,该装置可以包括:
获取模块701,用于获取用户输入的提问文本;
确定模块702,用于根据所述提问文本,确定与所述输入文本相匹配的语句生成模式;
生成模块703,用于根据所述语句生成模式,为所述相关文本生成语句内容;
应答模块704,用于根据所述语句内容,进行应答。
综上所述,本申请实施例提供的一种智能客服的应答装置,通过先选择与提问数据相匹配的语句生成模式,根据该语句生成模式确定语句内容,相较于直接使用固定的语句生成模式生成语句内容的方式,由于该语句生成模式与提问数据更加适配,因此,一定程度上可以提高语句内容的准确性,进而提高客服应答的准确性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图13是本申请实施例提供的一种装置的结构示意图。参见图13,服务器800可以用于实施上述实施例中提供的语句生成方法。该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储的或持久存储的。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,一个或一个以上键盘856,和/或和,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。其中,中央处理器822可以在服务器800上执行以下操作的指令:
获取输入文本;
根据所述输入文本,确定与所述输入文本相匹配的语句生成模式;
根据所述语句生成模式,为所述输入文本生成语句内容。本申请还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述方法。
本申请提供一种装置,其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行上述方法。
本申请还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种语句生成方法,其特征在于,所述方法包括:
获取输入文本;
根据所述输入文本,确定与所述输入文本相匹配的语句生成模式;
根据所述语句生成模式,为所述输入文本生成语句内容。
2.根据权利要求1所述的方法,其特征在于,所述语句生成模式包括但不限于:序列生成式,和/或,检索式;
则所述根据所述语句生成模式,为所述输入文本生成语句内容,包括:
如果所述语句生成模式为序列生成式,则根据所述输入文本生成所述语句内容;
如果所述语句生成模式为检索式,则根据所述输入文本在预处理的检索库中选择所述语句内容。
3.根据权利要求2所述的方法,其特征在于,通过如下方式得到所述预处理的检索库:
获取历史对话样本;
将所述历史对话样本中的高频语句进行抽取,形成所述检索库。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
利用所述历史对话样本训练对话模型。
5.根据权利要求4所述的方法,其特征在于,所述历史对话样本记录有目标对象的对话语句;
所述利用所述历史对话样本训练对话模型,包括:
将所述历史对话样本划分为多个对话片段,每个对话片段中包括所述目标对象所说的语句;
使用所述多个对话片段作为训练数据,训练所述对话模型。
6.根据权利要求5所述的方法,其特征在于,所述目标对象为司法审判人员,所述历史对话样本记录有所述司法审判人员的对话语句。
7.一种司法审判中的提问方法,其特征在于,包括:
获取司法案件的相关文本;
根据所述相关文本,确定与所述相关文本相匹配的语句生成模式;
根据所述语句生成模式,为所述相关文本生成语句内容;
根据所述语句内容,输出模拟提问;所述模拟提问用于模拟司法审判人员根据所述相关文本进行的提问。
8.一种语句生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取输入文本;
确定模块,用于根据所述输入文本,确定与所述输入文本相匹配的语句生成模式;
生成模块,用于根据所述语句生成模式,为所述输入文本生成语句内容。
9.一种司法审判中的提问装置,其特征在于,包括:
获取模块,用于获取司法案件的相关文本;
确定模块,用于根据所述相关文本,确定与所述相关文本相匹配的语句生成模式;
生成模块,用于根据所述语句生成模式,为所述相关文本生成语句内容;
输出模块,用于根据所述语句内容,输出模拟提问;所述模拟提问用于模拟司法审判人员根据所述相关文本进行的提问。
10.一种装置,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行所述指令时,使得所述装置执行如权利要求1至7的方法。
11.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行所述指令时,执行如权利要求1至7的方法。
CN202010699389.9A 2020-07-17 2020-07-17 语句生成方法、提问方法、装置及可读介质 Pending CN113946663A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010699389.9A CN113946663A (zh) 2020-07-17 2020-07-17 语句生成方法、提问方法、装置及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010699389.9A CN113946663A (zh) 2020-07-17 2020-07-17 语句生成方法、提问方法、装置及可读介质

Publications (1)

Publication Number Publication Date
CN113946663A true CN113946663A (zh) 2022-01-18

Family

ID=79326883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010699389.9A Pending CN113946663A (zh) 2020-07-17 2020-07-17 语句生成方法、提问方法、装置及可读介质

Country Status (1)

Country Link
CN (1) CN113946663A (zh)

Similar Documents

Publication Publication Date Title
CN110377911B (zh) 对话框架下的意图识别方法和装置
CN109874029B (zh) 视频描述生成方法、装置、设备及存储介质
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN111897933B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN112487139B (zh) 基于文本的自动出题方法、装置及计算机设备
CN110069612B (zh) 一种回复生成方法及装置
CN112017694B (zh) 语音数据的评测方法和装置、存储介质和电子装置
CN115293132B (zh) 虚拟场景的对话处理方法、装置、电子设备及存储介质
CN110597968A (zh) 一种回复选择方法及装置
CN114127849A (zh) 语音情感识别方法和装置
CN117251552B (zh) 基于大型语言模型的对话处理方法、装置及电子设备
CN109637527A (zh) 对话语句的语义解析方法及系统
CN114218488A (zh) 基于多模态特征融合的信息推荐方法、装置及处理器
CN113761156A (zh) 人机交互对话的数据处理方法、装置、介质及电子设备
CN114491023A (zh) 一种文本处理方法、装置、电子设备和存储介质
CN113656542A (zh) 一种基于信息检索与排序的话术推荐方法
CN113421551B (zh) 语音识别方法、装置、计算机可读介质及电子设备
CN115393849A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN113946663A (zh) 语句生成方法、提问方法、装置及可读介质
CN115116474A (zh) 口语评分模型训练方法、评分方法、装置及电子设备
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品
CN113836273A (zh) 基于复杂语境的法律咨询方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination