CN110348006A - 问题信息的生成方法、装置、计算机设备及其存储介质 - Google Patents

问题信息的生成方法、装置、计算机设备及其存储介质 Download PDF

Info

Publication number
CN110348006A
CN110348006A CN201910502350.0A CN201910502350A CN110348006A CN 110348006 A CN110348006 A CN 110348006A CN 201910502350 A CN201910502350 A CN 201910502350A CN 110348006 A CN110348006 A CN 110348006A
Authority
CN
China
Prior art keywords
information
response message
problem information
identification model
corresponding response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910502350.0A
Other languages
English (en)
Inventor
戴磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910502350.0A priority Critical patent/CN110348006A/zh
Publication of CN110348006A publication Critical patent/CN110348006A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Human Computer Interaction (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请为语言数据处理技术领域,本申请提供一种问题信息的生成方法和装置,所述方法包括根据问题测评请求,获取该请求所对应的业务类型,并从该业务类型对应的候选问题库中选择第一问题信息进行输出,并获取基于用户输入的所述第一问题信息对应的应答信息;将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息,其中,对历史的问题信息和应答信息进行训练得到所述问题识别模型;将所述第二问题信息作为所述第一问题信息的下一个问题信息进行输出。该方法有利于提高问答测评项目的准确性。

Description

问题信息的生成方法、装置、计算机设备及其存储介质
技术领域
本申请涉及语言数据处理技术领域,具体而言,本申请涉及一种问题信息的生成方法、装置、计算机设备及其存储介质。
背景技术
在很多场景中,都会使用问答,比如在金融行业(比如贷款),为了控制风险,风控人员往往会向申请者提出问题,并且根据申请者的回答提出下一个问题,如此往复,从而判断可能存在的风险。
现有技术中,利用终端设备录入所有问题,形成一个问题库,存放需要进行提问的所有问题信息,然后使用者通过预设的方式生成下一个问题并进行输出,这种方式不能灵活根据实际的回答情况设定下一个问题,容易脱离实际的情况,难以符合客观性,因此,用于判断风险的准确性偏低。
发明内容
为克服以上技术问题,特别是现有技术中只能按照预设的方式生成下一个问题,造成可能脱离实际的情况下得到下一个问题信息,特提出以下技术方案:
第一方面,本申请提供一种问题信息的生成方法,其包括以下步骤:
根据问题测评请求,获取该请求所对应的业务类型,并从该业务类型对应的候选问题库中选择第一问题信息进行输出,并获取基于用户输入的所述第一问题信息对应的应答信息;
将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息,其中,对历史的问题信息和应答信息进行训练得到所述问题识别模型;
将所述第二问题信息作为所述第一问题信息的下一个问题信息进行输出。
在其中一个实施例中,对历史的问题信息和应答信息进行训练得到所述问题识别模型,包括:
建立关于问题信息与对应的应答信息的历史数据库;
对所述历史数据库中的问题信息与对应的应答信息形成样本问答序列;
对所述样本问答序列进行向量化,得到样本问答向量序列;
利用所述样本问答向量序列进行训练,生成所述问题识别模型。
在其中一个实施例中,在所述对所述样本问答序列进行向量化的步骤之前,还包括:
对历史数据库的问题信息与对应的应答信息进行分词得到第一分词结果。
在其中一个实施例中,所述对所述样本问答序列进行向量化,得到样本问答向量序列的步骤包括:
利用词向量模型对所述第一分词结果进行向量化,得到历史数据库中的问题信息的特征向量和对应的应答信息的特征向量;
将历史数据库中的问题信息的特征向量和对应的应答信息的特征向量进行组合以形成样本问答向量序列。
在其中一个实施例中,将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息的步骤之前,还包括:
对所述候选问题库中的每个问题信息进行分词,得到第二分词结果;
利用词向量生成器对所述第二分词结果进行向量化,得到每个问题信息的第一特征向量。
在其中一个实施例中,将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息的步骤,包括:
将所述第一问题信息和对应的应答信息形成问答序列;
对所述问答序列进行向量化得到问答向量序列,并将所述问答向量序列输入至所述问题识别模型,得到第二特征向量;
分别计算所述第二特征向量与每个问题信息的第一特征向量的余弦相似度,以得到多个余弦相似度值;
将所述余弦相似度值中的最大值对应的第一特征向量的问题信息作为第二问题信息。
在其中一个实施例中,所述第一问题信息和对应的应答信息包括若干个第一问题子信息和对应的应答子信息;
所述将所述第一问题信息和对应的应答信息输入问题识别模型的步骤包括:
从若干个第一问题子信息和对应的应答子信息中获取预设个数的所述第一问题子信息和对应的应答子信息输入至所述问题识别模型。
第二方面,本申请还提供一种问题信息的生成装置,其包括:
获取模块,用于根据问题测评请求,获取该请求所对应的业务类型,并从该业务类型对应的候选问题库中选择第一问题信息进行输出,并获取基于用户输入的所述第一问题信息对应的应答信息;
预测模块,用于将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息,其中,对历史的问题信息和应答信息进行训练得到所述问题识别模型;
输出模块,用于将所述第二问题信息作为所述第一问题信息的下一个问题信息进行输出。
第三方面,本申请还提供一种计算机设备,其包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于执行上述实施例所述的问题信息的生成方法。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例所述的问题信息的生成方法。
本申请所提供的一种问题信息的生成方法、装置、计算机设备及其存储介质,其是根据测评请求所属的业务类型,从候选问题库中选择输出第一问题信息,获取测评对象对该第一问题信息的应答信息,并输入至所述问题识别模型进行预测,得到对应的第二问题信息并向测评对象进行进一步提问。该方法可以利用所述问题识别模型对所述测评对象的对问题信息和其应答进行分析,使得相应地问答测评项目可以减少对测评人员经验的依赖度,也有助于减少人为错误的情况,从而提高问答测评项目的准确性。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请中的一个实施例的问题信息的生成方法的流程图;
图2是本申请中的一个实施例的构建问题识别模型的流程图;
图3是本申请中的另一个实施例的构建问题识别模型的流程图;
图4是本申请中的另一个实施例的问题信息的生成方法的流程图;
图5为本申请中的一个实施例的问题信息的生成装置的结构示意图;
图6为本申请中的一个实施例的服务器的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通讯链路上,执行双向通讯的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通讯设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通讯设备;PCS(Personal Communications Service,个人通讯系统),其可以组合语音、数据处理、传真和/或数据通讯能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通讯终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
为了解决上述问题,本申请提供了一种问题信息的生成方法。可参考图1,图1是一个实施例的问题信息的生成方法流程图,该方法包括以下步骤:
S110、根据问题测评请求,获取该请求所对应的业务类型,并从该业务类型对应的候选问题库中选择第一问题信息进行输出,并获取基于用户输入的所述第一问题信息对应的应答信息。
在本实施例中,根据用户针对某项业务所发出的问题测评请求,服务器根据所述问题测评请求,获取该请求所涉及的业务类型,并根据所述业务类型,选择对应候选问题库。
在所述候选问题库中,收录了对应业务类型的所有候选问题,有的是直接收录对历史的相关问题信息,有的是根据时间推移或业务的变化等因素对原来所收录的历史的相关问题信息进行了修正后的相关问题信息。
在候选问题库中开始选择相关问题信息向测评对象提问时,对于第一问题信息通常是根据业务类型预先设定的。
当接收到问题测评请求时,服务器按照预先设定,根据所述问题测评请求选定对应的业务类型的候选问题库,向用户界面输出第一问题信息,根据测评对象的应答或者是用户按照测评对象应答所做的输入,服务器获取对应所述第一问题信息所做的对应的应答信息,并对该所述第一问题信息和对应的应答信息进行分析。
以金融行业为例,在测评对象参与具有一定风险的服务项目时,根据该服务项目所述的业务类型,进行相应的风险评估。这时,根据所述业务类型,根据风控人员的辅助选择或者是根据测评对象所启动的自助风险评估请求,根据所述请求选定该业务类型的候选问题库,从该候选问题库中选取并向用户界面输出已设定好的第一问题信息。对应得到第一问题信息的应答形式可以是选项,也可以是输入文字信息。当服务器接收针对所述第一问题信息的应答信息时,就对该所述第一问题信息和对应的应答信息进行分析。
S120、将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息,其中,对历史的问题信息和应答信息进行训练得到所述问题识别模型。
在该步骤中,所述问题识别模型是根据对历史的问题信息和应答信息进行训练得到的识别模型。
将上述步骤S110所产生的第一问题信息和对应的应答信息作为输入内容,输入至所述问题识别模型中。
沿用上述步骤S110的实施例进行说明,如向测评对象提问的第一问题信息为:“每年可支配收入为多少?”,对应的应答选项为:“A、5万以下;B、5-10万;C、10万-20万;D、20万以上;E、其他”。当接收关于测评对象的应答信息时,将该应答信息和其对应的第一问题信息输入至所述问题识别模型中,得到了关于该测评对象的可用于风险投资的额度,从而初步判断该测评对象承受风险的能力。如该测评对象选择A项,其承受风险的能力极低,不太适合参与具有风险的金融服务项目。若测评对象选择D项,其承受风险的能力较高,初步判读为可以向其推荐高风险高回报的金融服务项目。
将所述第一问题信息和对应的应答信息输入问题识别模型后,利用该问题识别模型,根据所述第一问题信息和对应的应答信息进行预测,以确定得到第二问题信息。
根据所述初步判断,针对所述第一问题信息,预测测评对象的类型趋势。并根据该预测的趋势,在候选问题库中得到相关的第二问题信息。对于上述的例子,利用所述问题识别模型的预测分析,得到进一步判断该用户对高风险金融产品的承受能力的第二问题信息。
S130、将所述第二问题信息作为所述第一问题信息的下一个问题信息进行输出。
在该步骤中,根据训练得到的所述问题识别模型在候选问题库中得到第二问题信息,并将所述第二问题信息作为下一个问题信息向用户进行推送,并输出显示于用户界面上。
其中,所述第二问题信息可以为单个问题信息,或者是由若干个问题信息形成的问题信息集。若所述第二问题信息为问题信息集,则根据实际情况,最终确定向测评对象提问的问题信息。该实际情况可以为进行问题测评的测评对象的自身情况、目前测评对象测评所在的阶段、或者是根据所述问题识别模型得到的与所述第一问题信息匹配度最高的第二问题信息。而所述最终确定向测评对象提问的问题信息,可以是操作人员根据实际情况在第二问题信息的问题信息集中选取最适合的第二问题信息,也可以是服务器根据实际情况所形成的进行进一步筛选的条件设定最终得到的单个第二问题信息。
所述进一步筛选的条件设定可以是根据是第一问题信息和对应的应答信息得到测评对象的类型;或者是根据提问测评所处的提问阶段,沿用上述关于金融风险的服务项目,如提问进入适合项目类型的评估阶段;或者是根据所述问题识别模型得到与第一问题信息匹配参数最高的第二问题信息等,可以使用上述的一个或同时使用若干个条件设定,对得到的第二问题信息的问题信息集做进一步筛选,最终得到的单个第二问题信息。
本申请提供的一种问题信息的生成方法,利用了问题识别模型对获取到的问题信息和对应的应答信息进行预测,从而在候选问题库中选择了符合预测需求的第二问题信息。这样,使得提出的问题信息可以灵活根据测评对象的实际应答情况在候选问题库中选择合适的第二问题信息,以继续提问,最终达到客观了解测评对象的实际情况,提高测评的准确性。
在利用上述问题识别模型之前,在本实施例中,先构建问题信息的问题识别模型。所述问题识别模型是根据对历史的问题信息和应答信息进行训练得到的识别模型。
具体地,通过历史的问题信息和应答信息构建得到所述问题识别模型的流程可参考图2,图2是一个实施例的构建问题识别模型的流程图,该构建所述问题识别模型包括以下步骤:
S101、建立关于问题信息与对应的应答信息的历史数据库。
针对对应的业务类型,收集对应的历史的问题信息与对应的应答信息,并对此建立相关的历史数据库,以供构建所述问题识别模型提供训练语料。
以所述业务类型涉及到金融领域的理财服务为例进行说明:通过对历史产生的相关问题信息和对应应答信息、及相关问题信息的提问的顺序进行存储,例如,当获取到了关于测评对象的储蓄和收入支配能力的问题信息对应的应答信息后,在历史的提问信息中,根据对该应答情况的判断,会向测评对象提出哪一方面的问题信息。
S102、对所述历史数据库中的问题信息与对应的应答信息形成样本问答序列。
在本步骤中,将所述历史数据库中的问题信息与应答信息按照提问和应答的顺序形成样本问答序列。对于该样本问答序列可设定长度,如每个样本问题序列的长度均为n,该样本问答序列可表达为{Q0,A0,Q1,A1,…,Qn-1,An-1}。
S103、对所述样本问答序列进行向量化,得到样本问答向量序列。
将步骤S102所得到的样本问答序列进行向量化,并利用该样本问答序列进行训练,得到样本问答向量序列{FQ0,FA0,FQ1,FA1,…,FQn-1,FAn-1},该样本问答向量序列的长度同样为n。
S104、利用所述样本问答向量序列进行训练,生成所述问题识别模型。
为了方便统计,利用2K+1的窗口从该长度为n的该样本问答向量序列中提取连续的K+1个问题信息和K个应答信息,其中前K个问题信息和对应的应答信息作为输入内容,最后一个问题信息作为标签,构成一个问题识别训练样本。如果所述样本问答向量序列的长度n小于2K+1的窗口长度,则通过补充0来满足窗口长度。
根据上述内容,以下利用具体实施例进行说明:
如,对于包括4个问题信息和对应应答信息的样本问答序列为{Q0,A0,Q1,A1,…,Q3,A3}。如果K=2,则可以取到如下的训练样本为:
对上述的样本问答序列进行向量化,得到对应的样本问答向量序列;对该样本问答向量序列进行训练,得到对应的问题识别模型。
由于所述第一问题信息和对应的应答信息包括若干个第一问题子信息和对应的应答子信息。
对于步骤S120的所述将所述第一问题信息和对应的应答信息输入问题识别模型的步骤,进一步还包括:
所述若干个第一问题子信息和对应的应答子信息获取预设个数的所述第一问题子信息和对应的应答子信息输入至所述问题识别模型。
在该步骤中,将之前测评对象所应答的所有问题信息和对应的应答信息作为一个整体,形成一个包括若干第一问题子信息和对应的应答子信息的的问答序列。在所述总问答序列中获取预设的个数的所述第一问题子信息和对应的应答子信息,进而输入至所述问题识别模型中。需要说明的是,理论上预设个数可为大于2的任意整数,具体可根据实际情况确定。这些第一问题子信息和对应的应答子信息在总问答序列中可以是连续的,也可以是间断的。比如:测评对象回答了10个问题,对应的,10个问题以及对应的答案构成总问答序列,假如序列号分别为1-10,预设个数为4,则选取的输入问题识别模型的一种情况可以为1、2、5、7序列号对应的问题和答案,其中,1和2是连续的,2和5是不连续的。
在步骤S103之前,还包括:
S10、对历史数据库的问题信息与对应的应答信息进行分词得到第一分词结果。
在本步骤中,获取历史数据库中的每个问题信息和对应的应答信息,并使用分词器进行分词,得到第一分词结果。在本实施例中,所述分词器为jieba分词器。在本实施例中,可以使用精确模式,根据文本分析,对句子进行精准拆分。如第一问题信息为:“每年的可支配收入为多少?”则运用jieba分词器,将该句子拆分为:每年的、可、支配、收入、为、多少。
如图3所示,图3是另一个实施例的构建问题识别模型的流程图。在上述进行分词的基础上,上述的步骤S103包括:
S1031、利用词向量模型对得到的第一分词结果进行向量化,得到历史数据库中的问题信息的特征向量和对应的应答信息的特征向量。
在本步骤中,利用词向量模型对所述对历史数据库的问题信息与对应的应答信息进行分词,得到的第一分词结果进行向量化。
具体为,对上述的第一分词结果进行向量化,生成m维词向量。假设第一问题信息Q1i的分词结果是词序列SQ1i(其长度为LQ1i),则可以生成LQ1i个词向量的序列,从而可以拼接为一个m*LQ1i维的特征向量FQ1i。同理,其对应的应答信息Ai的分词的结果得到的词序列SA1i(长度为LA1i)也可以同样生成m*LA1i维的特征向量FA1i。
为了后续模型处理方便,可将特征向量的维数统一设定为m*L,其中L是一个可以包含大多数问题信息和应答信息的长度(比如500)。如果实际的第一问题信息的长度LQ1i<L或者其对应的应答信息的长度LA1i<L则补充0,如果实际的第一问题信息的长度LQ1i>L或者对应的应答信息的长度LA1i>L则截断,确保实际的第一问题信息的长度LQ1i和其对应的应答信息的长度LA1i的长度统一为L。根据上述操作,生成得到历史数据库中的问题信息的特征向量和对应的应答信息的特征向量。
S1032、将历史数据库中的问题信息的特征向量和对应的应答信息的特征向量组合形成样本问答向量序列。
根据步骤S1031所得到的关于历史数据库中的问题信息的特征向量FQi和对应的应答信息的特征向量LAi,最终组合形成关于样本所样本问答向量序列{FQ0,FA0,FQ1,FA1,…,FQn-1,FAn-1}。
在本实施例中,所述词向量模型为GloVe词向量生成器模型。该GloVe词向量生成器模型是通过使用相关业务类型的相关领域的语料进行训练得到的。沿用上述的实施例,所述语料可为金融语料,该语料可以从相关的金融语料库获取。利用jieba分词器对所获取的金融语料库中的文本进行分词,得到分词的结果。然后通过扫描该分词的结果生成共现矩阵。基于该共现矩阵训练text2vec中的GloVe词向量生成器模型。
在本实施例中,所述共现矩阵是指,如果金融语料库分词的结果是有n个词,那么选取固定长度(词个数)的窗口在语料库上进行滑动,第i个词和第j个词(i,j∈[0,n-1])出现在同一个窗口中的次数就是共现矩阵X的元素Xij的值。
在步骤S120之前,还包括以下步骤:
S1、对所述候选问题库中的每个问题信息进行分词,得到第二分词结果。
在该步骤中,可以沿用上述提到对历史数据库的问题信息与对应的应答信息进行分词的方法。
即获取候选问题库中的每个问题信息,并使用分词器进行分词,得到第二分词结果。在本实施例中,所述分词器可为jieba分词器。在本实施例中,可以使用精确模式,根据文本分析,对句子进行精准拆分。
S2、利用所述词向量生成器对所述第二分词结果进行向量化,得到每个问题信息的第一特征向量。
在该步骤中,可以沿用上述提到对历史数据库的问题信息与对应的应答信息进行向量化的方法,由此得到在候选问题库中每个问题信息的第一特征向量。
具体为,利用词向量模型对上述步骤S1得到的第二分词结果进行向量化。为了便于与历史数据库的向量化结果比较,同样生成m维词向量。若该问题信息Q2i的分词的结果是词序列SQ2i(其长度为LQ2i),则生成LQ2i个词向量的序列,从而可以拼接为一个m*LQ2i维的特征向量FQ2i。同理,其对应的应答信息A2i的分词的结果得到的词序列SA2i(长度为LA2i)也可以同样生成m*LA2i维的第一特征向量FA2i。
将第一特征向量的维数统一设定为m*L,其中L是一个可以包含大多数问题信息的长度(比如500)。如果实际的第二问题信息的长度LQ2i<L则补充0,如果实际的第一问题信息的长度LQ2i>L则截断,确保实际的第一问题信息的长度LQ2i的长度统一为L。
如图4所示,图4是另一个实施例的问题信息的生成方法的流程图。以此为基础,所述步骤120还包括以下步骤:
S121、将所述第一问题信息和对应的应答信息形成问答序列;
S122、对所述问答序列进行向量化得到问答向量序列,并将所述问答向量序列输入至所述问题识别模型,得到第二特征向量;
S123、分别计算所述第二特征向量与每个问题信息的第一特征向量的余弦相似度,以得到多个余弦相似度值;
S124、将所述余弦相似度值中的最大值对应的第一特征向量的问题信息作为第二问题信息。
对于步骤S121-124中,将所述第一问题信息和对应的应答信息形成对应的问答序列。可以利用步骤S1031-S1032中对问答序列进行向量化的方法,分别得到所述第一问题信息的特征向量及其对应的应答信息的特征向量,得到对应的问答向量序列。将该问答向量序列输入至所述问题识别模型中,得到所述第二特征向量。
将上述得到的第一特征向量与第二特征向量进行相似度比较,在本实施例中,所述相似度比较的方法可以使用余弦相似度的比较方法。具体地,分别计算所述第二特征向量与候选问题库中每个问题信息的第一特征向量的余弦相似度,得到各个对应的余弦相似度值。根据得到的所有的余弦相似度值进行比较,得到其中最大余弦相似度,即获得形成最小夹角的第二特征向量与对应的第一特征向量,代表的是得到与实际问答测评中匹配度最高的第一特征向量。根据该第一特征向量对应的问题信息作为第二问题信息。
基于与上述问题信息的生成方法相同的发明构思,本申请实施例还提供了一种问题信息的生成装置,如图5所示,包括:
获取模块510,用于根据问题测评请求,获取该请求所对应的业务类型,并从该业务类型对应的候选问题库中选择第一问题信息进行输出,并获取基于用户输入的所述第一问题信息对应的应答信息;
预测模块520,用于将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息,其中,对历史的问题信息和应答信息进行训练得到所述问题识别模型;
输出模块530,用于将所述第二问题信息作为所述第一问题信息的下一个问题信息进行输出。
请参考图6,图6为一个实施例中计算机设备的内部结构示意图。如图6所示,该计算机设备包括通过系统总线连接的处理器610、存储介质620、存储器630和网络接口640。其中,该计算机设备的存储介质620存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器610执行时,可使得处理器610实现一种问题信息的生成方法,处理器610能实现图5所示实施例中的一种问题信息的生成装置中的获取模块510、预测模块520和输出模型530的功能。该计算机设备的处理器610用于提供计算和控制能力,支撑整个服务器的运行。该计算机设备的存储器630中可存储有计算机可读指令,该计算机可读指令被处理器610执行时,可使得处理器610执行一种问题信息的生成方法。该计算机设备的网络接口640用于与终端连接通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请还提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:根据问题测评请求,获取该请求所对应的业务类型,并从该业务类型对应的候选问题库中选择第一问题信息进行输出,并获取基于用户输入的所述第一问题信息对应的应答信息;将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息,其中,对历史的问题信息和应答信息进行训练得到所述问题识别模型;将所述第二问题信息作为所述第一问题信息的下一个问题信息进行输出。
综合上述实施例可知,本申请最大的有益效果在于:
本申请所提供的问题信息的生成方法、装置、计算机设备及其存储介质,其是根据测评请求所属的业务类型,从候选问题库中选择输出第一问题信息,获取测评对象对该第一问题信息的应答信息,并输入至所述问题识别模型进行预测,得到对应的第二问题信息并向测评对象进行进一步提问。该方法可以利用所述问题识别模型对所述测评对象的对问题信息和其应答进行分析,使得相应地问答测评项目可以减少对测评人员经验的依赖度,也有助于减少人为错误的情况,从而提高问答测评项目的准确性。
本申请的问题信息的生成方法、装置、计算机设备及其存储介质还提供了通过对历史数据库中的问题信息与对应的应答信息为语料,进行向量化后,生成所述问题识别模型。这样使得第二问题信息的输出可以根据历史数据的文本特性,对当前进行的提问测评提供输出的参考基础,尽量减少了对人员经验的依赖程度,减少了因人为失误对提问测评所造成的负面影响。
综上,本申请通过问题信息的生成方法、装置、计算机设备及其存储介质,将第一问题信息和对应的应答信息输入至所述问题识别模型中,避免了现有技术中只能按照预设的方式生成下一个问题,造成可能脱离实际的情况下得到第二问题信息的输出的问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种问题信息的生成方法,其特征在于,包括以下步骤:
根据问题测评请求,获取该请求所对应的业务类型,并从该业务类型对应的候选问题库中选择第一问题信息进行输出,并获取基于用户输入的所述第一问题信息对应的应答信息;
将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息,其中,对历史的问题信息和应答信息进行训练得到所述问题识别模型;
将所述第二问题信息作为所述第一问题信息的下一个问题信息进行输出。
2.根据权利要求1所述的问题信息的生成方法,其特征在于,对历史的问题信息和应答信息进行训练得到所述问题识别模型,包括:
建立关于问题信息与对应的应答信息的历史数据库;
对所述历史数据库中的问题信息与对应的应答信息形成样本问答序列;
对所述样本问答序列进行向量化,得到样本问答向量序列;
利用所述样本问答向量序列进行训练,生成所述问题识别模型。
3.根据权利要求2所述的问题信息的生成方法,其特征在于,
在所述对所述样本问答序列进行向量化的步骤之前,还包括:
对历史数据库的问题信息与对应的应答信息进行分词得到第一分词结果。
4.根据权利要求3所述的问题信息的生成方法,其特征在于,
所述对所述样本问答序列进行向量化,得到样本问答向量序列的步骤包括:
利用词向量模型对所述第一分词结果进行向量化,得到历史数据库中的问题信息的特征向量和对应的应答信息的特征向量;
将历史数据库中的问题信息的特征向量和对应的应答信息的特征向量进行组合以形成样本问答向量序列。
5.根据权利要求4所述的问题信息的生成方法,其特征在于,将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息的步骤之前,还包括:
对所述候选问题库中的每个问题信息进行分词,得到第二分词结果;
利用词向量生成器对所述第二分词结果进行向量化,得到每个问题信息的第一特征向量。
6.根据权利要求5所述的问题信息的生成方法,其特征在于,将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息的步骤,包括:
将所述第一问题信息和对应的应答信息形成问答序列;
对所述问答序列进行向量化得到问答向量序列,并将所述问答向量序列输入至所述问题识别模型,得到第二特征向量;
分别计算所述第二特征向量与每个问题信息的第一特征向量的余弦相似度,以得到多个余弦相似度值;
将所述余弦相似度值中的最大值对应的第一特征向量的问题信息作为第二问题信息。
7.根据权利要求1所述的问题信息的生成方法,其特征在于,
所述第一问题信息和对应的应答信息包括若干个第一问题子信息和对应的应答子信息;
所述将所述第一问题信息和对应的应答信息输入问题识别模型的步骤包括:
从若干个第一问题子信息和对应的应答子信息中获取预设个数的所述第一问题子信息和对应的应答子信息输入至所述问题识别模型。
8.一种问题信息的生成装置,其特征在于,包括:
获取模块,用于根据问题测评请求,获取该请求所对应的业务类型,并从该业务类型对应的候选问题库中选择第一问题信息进行输出,并获取基于用户输入的所述第一问题信息对应的应答信息;
预测模块,用于将所述第一问题信息和对应的应答信息输入问题识别模型,利用所述问题识别模型对所述第一问题信息和对应的应答信息进行预测,以得到第二问题信息,其中,对历史的问题信息和应答信息进行训练得到所述问题识别模型;
输出模块,用于将所述第二问题信息作为所述第一问题信息的下一个问题信息进行输出。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于执行根据权利要求1至7任一项所述的问题信息的生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至7任一项所述的问题信息的生成方法。
CN201910502350.0A 2019-06-11 2019-06-11 问题信息的生成方法、装置、计算机设备及其存储介质 Withdrawn CN110348006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910502350.0A CN110348006A (zh) 2019-06-11 2019-06-11 问题信息的生成方法、装置、计算机设备及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910502350.0A CN110348006A (zh) 2019-06-11 2019-06-11 问题信息的生成方法、装置、计算机设备及其存储介质

Publications (1)

Publication Number Publication Date
CN110348006A true CN110348006A (zh) 2019-10-18

Family

ID=68181764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910502350.0A Withdrawn CN110348006A (zh) 2019-06-11 2019-06-11 问题信息的生成方法、装置、计算机设备及其存储介质

Country Status (1)

Country Link
CN (1) CN110348006A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837551A (zh) * 2019-11-27 2020-02-25 广州快决测信息科技有限公司 一种在线数据采集的方法及系统
CN112906402A (zh) * 2021-03-24 2021-06-04 平安科技(深圳)有限公司 音乐应答数据的生成方法、装置、设备及存储介质
CN113051375A (zh) * 2019-12-27 2021-06-29 阿里巴巴集团控股有限公司 基于问答设备的问答数据的处理方法和装置
CN113299288A (zh) * 2020-02-24 2021-08-24 上海方付通商务服务有限公司 信息采集方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160239738A1 (en) * 2013-10-23 2016-08-18 Tencent Technology (Shenzhen) Company Limited Question recommending method, apparatus and system
CN107133303A (zh) * 2017-04-28 2017-09-05 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN107436864A (zh) * 2017-08-04 2017-12-05 逸途(北京)科技有限公司 一种基于Word2Vec的中文问答语义相似度计算方法
CN108053351A (zh) * 2018-02-08 2018-05-18 南京邮电大学 智能高考志愿推荐系统和推荐方法
CN108335198A (zh) * 2018-02-07 2018-07-27 平安科技(深圳)有限公司 客户风险测评方法、装置、设备及计算机可读存储介质
CN108733703A (zh) * 2017-04-20 2018-11-02 北京京东尚科信息技术有限公司 问答系统的答案预测方法及装置、电子设备、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160239738A1 (en) * 2013-10-23 2016-08-18 Tencent Technology (Shenzhen) Company Limited Question recommending method, apparatus and system
CN108733703A (zh) * 2017-04-20 2018-11-02 北京京东尚科信息技术有限公司 问答系统的答案预测方法及装置、电子设备、存储介质
CN107133303A (zh) * 2017-04-28 2017-09-05 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN107436864A (zh) * 2017-08-04 2017-12-05 逸途(北京)科技有限公司 一种基于Word2Vec的中文问答语义相似度计算方法
CN108335198A (zh) * 2018-02-07 2018-07-27 平安科技(深圳)有限公司 客户风险测评方法、装置、设备及计算机可读存储介质
CN108053351A (zh) * 2018-02-08 2018-05-18 南京邮电大学 智能高考志愿推荐系统和推荐方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837551A (zh) * 2019-11-27 2020-02-25 广州快决测信息科技有限公司 一种在线数据采集的方法及系统
CN110837551B (zh) * 2019-11-27 2022-06-28 广州快决测信息科技有限公司 一种在线数据采集的方法及系统
TWI799760B (zh) * 2019-11-27 2023-04-21 大陸商廣州快決測信息科技有限公司 在線資料採集的方法、裝置、電腦可讀儲存媒介及系統
US11886479B2 (en) 2019-11-27 2024-01-30 Guangzhou Quick Decision Information Technology Co., Ltd. Online data acquisition method and system
CN113051375A (zh) * 2019-12-27 2021-06-29 阿里巴巴集团控股有限公司 基于问答设备的问答数据的处理方法和装置
CN113299288A (zh) * 2020-02-24 2021-08-24 上海方付通商务服务有限公司 信息采集方法、装置、设备和介质
CN113299288B (zh) * 2020-02-24 2024-05-24 上海方付通商务服务有限公司 信息采集方法、装置、设备和介质
CN112906402A (zh) * 2021-03-24 2021-06-04 平安科技(深圳)有限公司 音乐应答数据的生成方法、装置、设备及存储介质
CN112906402B (zh) * 2021-03-24 2024-02-27 平安科技(深圳)有限公司 音乐应答数据的生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107846350B (zh) 一种语境感知网络聊天的方法、计算机可读介质和系统
Huang et al. Analyst information discovery and interpretation roles: A topic modeling approach
CN110348006A (zh) 问题信息的生成方法、装置、计算机设备及其存储介质
WO2020177282A1 (zh) 一种机器对话方法、装置、计算机设备及存储介质
US20200175047A1 (en) System for determining and optimizing for relevance in match-making systems
CN108885624B (zh) 信息推荐系统及方法
US20100280985A1 (en) Method and system to predict the likelihood of topics
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN111353299B (zh) 基于人工智能的对话场景确定方法和相关装置
EP3690673A1 (en) Method, apparatus, electronic device, and storage medium for image-based data processing
KR20200047006A (ko) 머신 러닝 기반의 근사모델 구축 방법 및 시스템
Fan et al. Policy attention and the adoption of public sector innovation
Arbolino et al. Assessing the impact of special economic zones on regional growth through a comparison among EU countries
CN115292470A (zh) 一种用于小额贷款智能客服的语义匹配方法及系统
GB2600817A (en) Systems and methods for generating dynamic interface options using machine learning models
CN108550019A (zh) 一种简历筛选方法及装置
US20230244878A1 (en) Extracting conversational relationships based on speaker prediction and trigger word prediction
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN109599176B (zh) 问诊技巧推荐方法及装置、在线辅诊系统
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
WO2020151318A1 (zh) 基于爬虫模型的语料构建方法、装置及计算机设备
CN114328797B (zh) 内容搜索方法、装置、电子设备、存储介质及程序产品
CN110879868A (zh) 顾问方案生成方法、装置、系统、电子设备及介质
CN116933800B (zh) 一种基于模版的生成式意图识别方法及装置
US12008047B2 (en) Providing an object-based response to a natural language query

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20191018