CN111930948B

CN111930948B - 一种信息收集和分级方法、装置、计算机设备及存储介质

Info

Publication number: CN111930948B
Application number: CN202010937032.XA
Authority: CN
Inventors: 施泽晶; 宋万友
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Shenzhen Ping An Smart Healthcare Technology Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2021-01-26
Anticipated expiration: 2040-09-08
Also published as: CN111930948A

Abstract

本发明公开了一种信息收集和分级方法、装置、计算机设备及存储介质，涉及数据处理技术领域，该方法包括：收集目标人员的名单，所述目标人员的名单包括目标人员的身份信息和联系信息；通过场景编码将目标人员的名单推送至电话策略平台，通过所述电话策略平台按照预先设置的呼叫策略发起语音通话，并调取对应场景编码下的语音话术进行对话；收集对话过程中的回答内容，然后将收集到的问答结果进行结构化保存得到回访信息；基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果。本发明同时对海量人群进行信息收集，自动对收集的信息进行评估分级，为数据使用者提供直观有效的参考。

Description

一种信息收集和分级方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种信息收集和分级方法、装置、计算机设备及存储介质。

背景技术

2000年，世界卫生组织WHO提出要建立全球传染病爆发预警和反应框架，特别是2003年全球发生SARS疫情以及2020年全球发生新型冠状肺炎疫情以来，对传染病的突发预警和快速应对有了更高的要求，相关的卫生信息系统建设进程明显加快且更加规范。

现有技术中，信息收集方法一般有以下几种：一、人工摸排：由社区、村委等工作人员，以网格为单位，对辖区住户进行逐一排查；二、上报系统排查：主要为待摸排人员自行填写相关信息，并自行进行信息上报。

现有技术的信息收集方法，其效率低，无法同时对海量人群进行信息收集，并且收集到的信息无法及时自动完成分级。

发明内容

本发明的目的是提供一种信息收集和分级方法、装置、计算机设备及存储介质，旨在解决现有信息处理方式效率低、无法进一步评估分级的问题。

本发明实施例提供一种信息收集和分级方法，其包括：

收集目标人员的名单，所述目标人员的名单包括目标人员的身份信息和联系信息；

通过场景编码将目标人员的名单推送至电话策略平台，通过所述电话策略平台按照预先设置的呼叫策略发起语音通话，并调取对应场景编码下的语音话术进行对话；

收集对话过程中的回答内容，然后将收集到的问答结果进行结构化保存得到回访信息；

基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果。

本发明实施例提供一种信息收集和分级装置，其包括：

收集单元，用于收集目标人员的名单，所述目标人员的名单包括目标人员的身份信息和联系信息；

对话单元，用于通过场景编码将目标人员的名单推送至电话策略平台，通过所述电话策略平台按照预先设置的呼叫策略发起语音通话，并调取对应场景编码下的语音话术进行对话；

保存单元，用于收集对话过程中的回答内容，然后将收集到的问答结果进行结构化保存得到回访信息；

分级单元，用于基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果。

第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的信息收集和分级方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如上所述的信息收集和分级方法。

本发明实施例提供了一种信息收集和分级方法、装置、计算机设备及存储介质，方法包括：收集目标人员的名单，所述目标人员的名单包括目标人员的身份信息和联系信息；通过场景编码将目标人员的名单推送至电话策略平台，通过所述电话策略平台按照预先设置的呼叫策略发起语音通话，并调取对应场景编码下的语音话术进行对话；收集对话过程中的回答内容，然后将收集到的问答结果进行结构化保存得到回访信息；基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果。通过本发明实施例的方法，可以同时对海量人群进行信息收集，并且可以自动对收集到的信息进行进一步评估分级，可以为数据使用者提供直观有效的参考。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种信息收集和分级方法的流程示意图；

图2为本发明实施例提供的一种信息收集和分级方法的子流程示意图；

图3为本发明实施例提供的一种信息收集和分级方法的另一子流程示意图；

图4为本发明实施例提供的一种信息收集和分级方法的另一子流程示意图；

图5为本发明实施例提供的一种信息收集和分级方法的另一子流程示意图；

图6为本发明实施例提供的一种信息收集和分级方法的另一子流程示意图；

图7为本发明实施例提供的一种信息收集和分级方法的另一子流程示意图；

图8为本发明实施例提供的一种信息收集和分级装置的示意性框图；

图9为本发明实施例提供的一种信息收集和分级装置的子单元示意性框图；

图10为本发明实施例提供的一种信息收集和分级装置的另一子单元示意性框图；

图11为本发明实施例提供的一种信息收集和分级装置的另一子单元示意性框图；

图12为本发明实施例提供的一种信息收集和分级装置的另一子单元示意性框图；

图13为本发明实施例提供的一种信息收集和分级装置的另一子单元示意性框图；

图14为本发明实施例提供的一种信息收集和分级装置的另一子单元示意性框图；

图15为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种信息收集和分级方法的流程示意图，包括步骤S101~S104：

S101、收集目标人员的名单，所述目标人员的名单包括目标人员的身份信息和联系信息；

本步骤收集的目标人员的名单可以是基于平台收集，即由目标人员在平台上输入自身的身份信息和联系信息。这种方式比较适合于普通人群的信息收集，该方式可以收集大部分的待摸排人员的名单。

另外，还可以根据需要来主动收集目标人员的名单，例如收集某一辖区内的常住居民以及流动人员的名单，并加入到目标人员的名单。

此外，还可以根据需要主动收集特定人员的名单，这些特定人员，有可能是某个企业或者某个具有同类属性的人员，这种方式属于定向收集方式。

在收集目标人员名单时，需要获取目标人员的身份信息和联系信息，所述身份信息可包括姓名、性别、年龄等等。所述联系信息可包括电话、住址等。当然，除了上述身份信息和联系信息之外，条件允许的话，还可以收集目标人员的其他信息，例如行动轨迹、身体状况、密切接触人员信息等等，如果这些信息不便收集，那么至少需要收集目标人员的身份信息和联系信息，以便后续进行信息收集和分级。

S102、通过场景编码将目标人员的名单推送至电话策略平台，通过所述电话策略平台按照预先设置的呼叫策略发起语音通话，并调取对应场景编码下的语音话术进行对话；

本步骤中，是通过电话策略平台按照预先设置的呼叫策略来向目标人员发起语音通话，当电话拨通后，需要调取场景编码下的语音话术与目标人员进行对话。

在一实施例中，如图2所示，所述步骤S102包括：

S201、通过场景编码将目标人员的名单推送至电话策略平台；

S202、所述电话策略平台按照预先设置的呼叫策略发起语音通话；

S203、在语音通话拨通后，所述电话策略平台调取场景编码对应的语音话术，并根据所述语音话术获取问题模板，然后按照问题模板依次进行提问；

S204、在对话过程中，识别用户的回答内容，并根据回答内容进行反馈。

本实施例中，对话是基于一个语音AI模型来实现的，该语音AI模型根据场景编码的不同，设置有不同的语音话术。

具体的，语音AI模型中预先设置有语音话术，该语音话术是指其设置了多个问题模板，并按照问题模板进行依次提问，从而获取用户的回答内容。当然，在此对话过程中，用户可能会进行反问，例如没有听清一部分问题，又或者反问原因，或者咨询其他问题等等，所以，则需要识别用户的回答内容，并根据回答内容进行反馈。

在一实施例中，如图3所示，所述步骤S204包括：

S301、获取用户的回答内容，并将回答内容转换为文本，然后进行纠错、删除和插入单词的操作，以对文本进行补充和改写；

S302、对处理后的文本经过自然语言理解框架，解析为结构化的语义表示；

S303、根据解析出的语义表示，判断是否满足所询问的问题，如果无法满足，则继续进行追问，以引导用户提供满足要求的回答内容。

在本实施例中，按照预设的语音话术将问题模板转换成语音，并播放给用户；用户进行回答后，将用户的语音回答内容转换为文本，并进行纠错、删除、插入单词等操作，将用户所说的话进行补充和改写，这一过程完成了语音转为文本的过程；然后将识别到的文本经过自然语言理解框架，解析为结构化的、机器可以理解的语义表示。再根据解析出的信息，判断是否满足所询问的问题。如果无法满足，那么还需要继续进行追问，以获取更多的信息。例如所提的问题是“最近14天是否有离开本市”，用户回答“我最近有外出”，那么用户的回答中缺失了“外出地点”这个实体的参数，那么就会引导用户给出“外出地点”的信息。

在一实施例中，如图4所示，所述步骤S204还包括：

S401、当解析出的语义表示为问句时，则根据所述语义表示确认用户的意图；

S402、根据用户的意图在预设的语料库中查询候选答案集合；然后利用带注意力的Seq2Seq模型对候选答案集合中的答案进行排序，并选择得分最高的答案作为最终答案输出。

本实施例中，根据解析出的语义表示可以确认用户的意图，意图即用户表达信息的目的。

确认意图的过程中，需要从语义表示中抽取词槽信息，以便完整表达意图。抽取词槽信息可以抽象为一个序列标注问题，可以以字为单位进行序列标注，也可以以词为单位进行序列标注。抽取词槽信息可以采用基于规则的方法、基于统计模型的方法，又或者基于深度学习模型的方法。本发明实施例优选采用RNN 模型来抽取词槽信息，其效果优于传统模型。

在抽取词槽信息的任务中，包括：输入层、Bi-LSTM层和输出层。

其中，在输入层，可以采用分布式表示（word vector）和符号表示（symbolvector）融合的方式，从而有效利用分布式的上下文学习能力和符号的抽象知识表示能力；此外可采用局部上下文窗口（local context window），将窗口内的词的表示拼接在一起送入一个非线性映射层，非线性映射具有特征学习和特征降维的作用；另外，还可采用浅层网络（FastText）进行词嵌入（word embedding）的学习，可以有效解决OOV（超出字词库外）的问题。Bi-LSTM层为中间的隐藏层，采用Bi-LSTM进行特征学习，既能捕捉上文特征，也能捕捉下文特征。在输出层可采用如下的模型：Bi-LSTM+Softmax、Bi-LSTM+CRF等，Bi-LSTM+Softmax是将抽取词槽信息在输出层作为一个分类问题，得到的标注结果是局部最优，Bi-LSTM+CRF是在输出层会综合句子层面的信息得到全局最优结果。

当用户的回答为问句时，可确认用户提问的意图，根据该意图，需要进行回应。回应的方式根据上下文/语境和对话的类型而有所不同，即回应内容可能是系统检索到的结果，也可能是根据深度强化学习模型生成的回答。最后将上述回应内容的文本转化为语音播放给用户。

本发明实施例可以采用两种方法来获取回应内容（即答案）：一是基于检索的模型，其主要是利用搜索引擎通过计算相关性来给出答案；二是基于Seq2Seq的生成式模型。其中，检索模型的优点是答案在预设的语料库中，可控，匹配模型相对简单，可解释性强；缺点是在一定程度上缺乏对语义的理解，且有固定语料库的局限性，长尾问题覆盖率较差。生成式模型的优点是通过深层语义方式进行答案生成，答案不受语料库规模限制；缺点是模型的可解释性不强，且难以保证回答一致性和合理性。

鉴于本发明实施例的应用场景，其任务性较强，随意性较低，所以优选采用基于检索的模型获取回应内容。更优选的是，本实施例可以结合使用检索模型和生成式模型，即首先采用检索模型从知识库中找出候选答案集合；然后利用带注意力的Seq2Seq模型对候选答案进行排序，得分最高的答案作为最终答案输出。当然，可以判断得分最高的答案的得分是否超过预设阈值，如果是则将其作为最终答案输出，否则可以直接利用生成式模型生成答案。

其中的抽取词槽信息可以抽象为一个序列标注问题，可以以字为单位进行序列标注，也可以以词为单位进行序列标注。抽取词槽信息可以采用基于规则的方法、基于统计模型的方法，又或者基于深度学习模型的方法。本申请可以优选采用RNN 模型来抽取词槽信息，其效果优于传统模型。

S103、收集对话过程中的回答内容，然后将收集到的问答内容进行结构化保存得到回访信息；

此步骤是收集对话过程中的回答内容，然后将回答内容结构化保存。

在一实施例中，如图5所示，所述步骤S103包括：

S501、收集对话过程中的回答内容，然后对所述回答内容进行修订，得到标准回答内容；

S502、将所述标准回答内容进行拆分，使每一拆分结果对应于预设的字段，然后将拆分结果进行结构化保存，得到回访信息。

本实施例中，首先对回答内容进行修订，修订的主要方式包括删除、增加和替换，例如用户回答的部分词语可能使用口语表达，此处可将其采用书面式的词语进行替换，或者用户回答的词语有重复，故可删除其中多余的补充，又或者用户回答的词语缺少动词，则可以进行补全。本实施例中，得到标准回答内容后，还将其进行拆分，使得拆分后的每一部分均对应于预设的字段，这样可以将拆分结果进行结构化保存，结构化保存的意思是按照指定的格式保存问答结果，以方便批量处理，提高处理效率。

在进行结构化保存之后，结构化保存后的数据也可称作行数据，是由二维表结构来表达和实现的数据，主要通过关系型数据库进行存储和管理。

通过结构化保存数据可以提供更丰富的搜索结果展现方式，也就是为数据使用者的具体查询提供有用的详细信息，让数据使用者直接在搜索结果中筛选所需要的重要信息。

S104、基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果。

本步骤是依据创建的决策树模型对回访信息进行分级，得到分级结果，该分级结果可以是风险等级，这样可以为决策人员提供依据。

在一实施例中，如图6所示，所述步骤S104包括：

S601、收集基于症状和流行病学史的样本；

S602、从所述样本中选择特征，并根据特征的重要度，构建子节点，并使越重要的特征越靠近根节点；

S603、根据特征的分裂方式，对节点进行分裂，以构建决策树模型。

在本实施例汇总，决策树模型的目标是从一组样本数据中，根据不同的特征和属性，建立一棵树形的分类结构。

决策树模型是从训练集中归纳出一组分类规则，得到与数据集矛盾较小的决策树，同时具有很好的泛化能力。决策树学习的损失函数通常是正则化的极大似然函数，通常采用启发式方法，近似求解最优化问题。决策树的构建过程先是收集样本；然后选择特征，即构建节点，根据特征的重要度，来构建子节点，越重要的特征越靠近根节点。最后分裂节点，即根据特征的分裂方式，来划分数据集，也就是根据条件区别对待。

决策树模型具体可采用不同的算法：ID3-最大信息增益、C4.5-最大信息增益比和CART-最小基尼指数。

其中，ID3算法是分别计算每个特征的条件熵，然后得到每个条件的信息增益。通过判断每个特征的信息增益的大小来决定特征的重要度。信息增益大，则越适合用来分类。在进行具体的节点分裂时，每个条件的分裂是遍历了所有的可能。C4.5算法：与ID3算法的思路基本相同，不同的是，相比于ID3算法，其将连续值离散化从而支持连续型特征，采用信息增益比来代替ID3算法的信息增益，解决了信息增益偏向分支过多的特征。CART算法：其采用的方式是不断的生成二叉树，既可以分类也可以回归，所以该二叉树也可称为分类回归树。

本实施例中，所述决策树模型可以存储于区块链节点中。区块链中的智能合约是基于可信的不可篡改的数据，实现自动化的执行一些预先定义好的规则和条款。本实施例中，区块链上的每个节点都按照块链式结构存储完整的决策树模型数据，而不需要采用传统分布式存储将数据按照一定的规则分成多份进行存储。这样各区块链节点均可实现对应的数据处理。并且区块链每个节点存储都是独立的、地位等同的，依靠共识机制保证存储的一致性，所以确保了决策树模型无法被单一主体控制或修改，确保了数据的安全性。这在本实施例中尤为重要，因为本发明涉及到了大量的用户隐私数据，如果这些数据被控制或复制，将导致信息泄露，采用本实施例避免了采用传统分布式存储通过中心节点向其他备份节点同步数据的处理方式，所以提高了数据安全性。并且本实施例可以采用非对称加密和授权技术来确保数据只有在数据拥有者授权的情况下才能访问，进一步保证了数据的安全。

在一实施例中，如图7所示，所述步骤S104还包括：

S701、利用构建好的决策树模型对回访信息进行分级处理，得到目标人员的分级结果；

S702、根据分级结果获取预先设置的对应处置建议，并将所述分级结果和处置建议进行关联，然后保存和输出所述分级结果和处置建议。

本实施例中，由于是应用在风险排查场景中，所以分类结果较少，具体的，可以预先设置分级结果设置为三种：高级、中级和低级，这三种实际上就代表分级结果，高级代表风险较高，中级代表风险中等，低级代表风险较低。依据分级结果可以进行不同的处置。

例如当目标人员的分级结果为高级时，则需要建议其到指定医疗机构就诊；当目标人员的分级结构为中级时，则需要建议其居家隔离；当目标人员的分级结构为低级时，则可以停止追踪该目标人员，只需建议其做好防护措施即可。

为了提高分级效率和准确率，本实施例可以先对回访信息进行过滤处理，过滤的目的是清除无效信息，例如机主并非本人，或者机主未提供有效信息，或者机主所提供的信息不足以进行分级处理，对于此类人员，可以直接进行过滤，从而保留有效的回访信息，这样后续对过滤后的回访信息进行分级时，可得到较为准确的分级结果。

本发明实施例还提供一种信息收集和分级装置，该一种信息收集和分级装置用于执行前述信息收集和分级方法的任一实施例。具体地，请参阅图8，图8是本发明实施例提供的信息收集和分级装置的示意性框图。该信息收集和分级装置可以配置于服务器中。

如图8所示，信息收集和分级装置800包括：收集单元801、对话单元802、保存单元803、分级单元804。

收集单元801，用于收集目标人员的名单，所述目标人员的名单包括目标人员的身份信息和联系信息；

对话单元802，用于通过场景编码将目标人员的名单推送至电话策略平台，通过所述电话策略平台按照预先设置的呼叫策略发起语音通话，并调取对应场景编码下的语音话术进行对话；

保存单元803，用于收集对话过程中的回答内容，然后将收集到的问答结果进行结构化保存得到回访信息；

分级单元804，用于基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果

在一实施例中，如图9所示，所述对话单元802包括：

推送单元901，用于通过场景编码将目标人员的名单推送至电话策略平台；

发起单元902，用于所述电话策略平台按照预先设置的呼叫策略发起语音通话；

提问单元903，用于在语音通话拨通后，所述电话策略平台调取场景编码对应的语音话术，并根据所述语音话术获取问题模板，然后按照问题模板依次进行提问；

反馈单元904，用于在对话过程中，识别用户的回答内容，并根据回答内容进行反馈。

在一实施例中，如图10所示，所述反馈单元904包括：

调整单元1001，用于获取用户的回答内容，并将回答内容转换为文本，然后进行纠错、删除和插入单词的操作，以对文本进行补充和改写；

解析单元1002，用于对处理后的文本经过自然语言理解框架，解析为结构化的语义表示；

追问单元1003，用于根据解析出的语义表示，判断是否满足所询问的问题，如果无法满足，则继续进行追问，以引导用户提供满足要求的回答内容。

在一实施例中，如图11所示，所述反馈单元904还包括：

确认单元1101，用于当解析出的语义表示为问句时，则根据所述语义表示确认用户的意图；

输出单元1102，用于根据用户的意图在预设的语料库中查询候选答案集合；然后利用带注意力的Seq2Seq模型对候选答案集合中的答案进行排序，并选择得分最高的答案作为最终答案输出。

在一实施例中，如图12所示，所述保存单元803包括：

修订单元1201，用于收集对话过程中的回答内容，然后对所述回答内容进行修订，得到标准回答内容；

拆分单元1202，用于将所述标准回答内容进行拆分，使每一拆分结果对应于预设的字段，然后将拆分结果进行结构化保存，得到回访信息。

在一实施例中，如图13所示，所述分级单元804包括：

样本获取单元1301，用于收集基于症状和流行病学史的样本；

选择单元1302，用于从所述样本中选择特征，并根据特征的重要度，构建子节点，并使越重要的特征越靠近根节点；

分裂单元1303，用于根据特征的分裂方式，对节点进行分裂，以构建决策树模型。

在一实施例中，如图14所示，所述分级单元804还包括：

分级结果获取单元1401，用于利用构建好的决策树模型对回访信息进行分级处理，得到目标人员的分级结果；

关联保存单元1402，用于根据分级结果获取预先设置的对应处置建议，并将所述分级结果和处置建议进行关联，然后保存和输出所述分级结果和处置建议。

通过本发明实施例的装置，可以同时对海量人群进行信息收集，并且可以自动对收集到的信息进行进一步评估分级，可以为数据使用者提供直观有效的参考。

上述信息收集和分级装置800可以实现为计算机程序的形式，该计算机程序可以在如图15所示的计算机设备上运行。

请参阅图15，图15是本发明实施例提供的计算机设备的示意性框图。该计算机设备1500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图15，该计算机设备1500包括通过系统总线1501连接的处理器1502、存储器和网络接口1505，其中，存储器可以包括非易失性存储介质1503和内存储器1504。

该非易失性存储介质1503可存储操作系统15031和计算机程序15032。该计算机程序15032被执行时，可使得处理器1502执行信息收集和分级方法。

该处理器1502用于提供计算和控制能力，支撑整个计算机设备1500的运行。

该内存储器1504为非易失性存储介质1503中的计算机程序15032的运行提供环境，该计算机程序15032被处理器1502执行时，可使得处理器1502执行信息收集和分级方法。

该网络接口1505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图15中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备1500的限定，具体的计算机设备1500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器1502用于运行存储在存储器中的计算机程序15032，以实现如下功能：收集目标人员的名单，所述目标人员的名单包括目标人员的身份信息和联系信息；通过场景编码将目标人员的名单推送至电话策略平台，通过所述电话策略平台按照预先设置的呼叫策略发起语音通话，并调取对应场景编码下的语音话术进行对话；收集对话过程中的回答内容，然后将收集到的问答结果进行结构化保存得到回访信息；基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果。

在一实施例中，处理器1502在执行所述通过场景编码将目标人员的名单推送至电话策略平台，通过所述电话策略平台按照预先设置的呼叫策略发起语音通话，并调取对应场景编码下的语音话术进行对话的步骤时，执行如下操作：通过场景编码将目标人员的名单推送至电话策略平台；所述电话策略平台按照预先设置的呼叫策略发起语音通话；在语音通话拨通后，所述电话策略平台调取场景编码对应的语音话术，并根据所述语音话术获取问题模板，然后按照问题模板依次进行提问；在对话过程中，识别用户的回答内容，并根据回答内容进行反馈。

在一实施例中，处理器1502在执行所述在对话过程中，识别用户的回答内容，并根据回答内容进行反馈的步骤时，执行如下操作：获取用户的回答内容，并将回答内容转换为文本，然后进行纠错、删除和插入单词的操作，以对文本进行补充和改写；对处理后的文本经过自然语言理解框架，解析为结构化的语义表示；根据解析出的语义表示，判断是否满足所询问的问题，如果无法满足，则继续进行追问，以引导用户提供满足要求的回答内容。

在一实施例中，处理器1502在执行所述在对话过程中，识别用户的回答内容，并根据回答内容进行反馈的步骤时，还执行如下操作：当解析出的语义表示为问句时，则根据所述语义表示确认用户的意图；根据用户的意图在预设的语料库中查询候选答案集合；然后利用带注意力的Seq2Seq模型对候选答案集合中的答案进行排序，并选择得分最高的答案作为最终答案输出。

在一实施例中，处理器1502在执行所述收集对话过程中的回答内容，然后将收集到的问答结果进行结构化保存得到回访信息的步骤时，执行如下操作：收集对话过程中的回答内容，然后对所述回答内容进行修订，得到标准回答内容；将所述标准回答内容进行拆分，使每一拆分结果对应于预设的字段，然后将拆分结果进行结构化保存，得到回访信息。

在一实施例中，处理器1502在执行所述基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果的步骤时，执行如下操作：收集基于症状和流行病学史的样本；从所述样本中选择特征，并根据特征的重要度，构建子节点，并使越重要的特征越靠近根节点；根据特征的分裂方式，对节点进行分裂，以构建决策树模型。

在一实施例中，处理器1502在执行所述基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果的步骤时，还执行如下操作：利用构建好的决策树模型对回访信息进行分级处理，得到目标人员的分级结果；根据分级结果获取预先设置的对应处置建议，并将所述分级结果和处置建议进行关联，然后保存和输出所述分级结果和处置建议。

本领域技术人员可以理解，图15中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图15所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器1502可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器1502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：收集目标人员的名单，所述目标人员的名单包括目标人员的身份信息和联系信息；通过场景编码将目标人员的名单推送至电话策略平台，通过所述电话策略平台按照预先设置的呼叫策略发起语音通话，并调取对应场景编码下的语音话术进行对话；收集对话过程中的回答内容，然后将收集到的问答结果进行结构化保存得到回访信息；基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果。

在一实施例中，所述通过场景编码将目标人员的名单推送至电话策略平台，通过所述电话策略平台按照预先设置的呼叫策略发起语音通话，并调取对应场景编码下的语音话术进行对话，包括：通过场景编码将目标人员的名单推送至电话策略平台；所述电话策略平台按照预先设置的呼叫策略发起语音通话；在语音通话拨通后，所述电话策略平台调取场景编码对应的语音话术，并根据所述语音话术获取问题模板，然后按照问题模板依次进行提问；在对话过程中，识别用户的回答内容，并根据回答内容进行反馈。

在一实施例中，所述在对话过程中，识别用户的回答内容，并根据回答内容进行反馈，包括：获取用户的回答内容，并将回答内容转换为文本，然后进行纠错、删除和插入单词的操作，以对文本进行补充和改写；对处理后的文本经过自然语言理解框架，解析为结构化的语义表示；根据解析出的语义表示，判断是否满足所询问的问题，如果无法满足，则继续进行追问，以引导用户提供满足要求的回答内容。

在一实施例中，所述在对话过程中，识别用户的回答内容，并根据回答内容进行反馈，还包括：当解析出的语义表示为问句时，则根据所述语义表示确认用户的意图；根据用户的意图在预设的语料库中查询候选答案集合；然后利用带注意力的Seq2Seq模型对候选答案集合中的答案进行排序，并选择得分最高的答案作为最终答案输出。

在一实施例中，所述收集对话过程中的回答内容，然后将收集到的问答结果进行结构化保存得到回访信息，包括：收集对话过程中的回答内容，然后对所述回答内容进行修订，得到标准回答内容；将所述标准回答内容进行拆分，使每一拆分结果对应于预设的字段，然后将拆分结果进行结构化保存，得到回访信息。

在一实施例中，所述基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果，包括：收集基于症状和流行病学史的样本；从所述样本中选择特征，并根据特征的重要度，构建子节点，并使越重要的特征越靠近根节点；根据特征的分裂方式，对节点进行分裂，以构建决策树模型。

在一实施例中，所述基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果，还包括：利用构建好的决策树模型对回访信息进行分级处理，得到目标人员的分级结果；根据分级结果获取预先设置的对应处置建议，并将所述分级结果和处置建议进行关联，然后保存和输出所述分级结果和处置建议。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 ( 可以是个人计算机，服务器，或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、只读存储器 (ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种信息收集和分级方法，其特征在于，包括：

收集对话过程中的回答内容，然后将收集到的回答内容进行结构化保存得到回访信息；

基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果；

所述基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果，包括：

收集基于症状和流行病学史的样本；

从所述样本中选择特征，并根据特征的重要度，构建子节点，并使越重要的特征越靠近根节点；

根据特征的分裂方式，对节点进行分裂，以构建决策树模型；所述决策树模型存储于区块链节点中，区块链上的每个节点都按照块链式结构存储完整的决策树模型数据，各区块链节点实现对应的数据处理；

所述基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果，还包括：

利用构建好的决策树模型对回访信息进行分级处理，得到目标人员的分级结果；

根据分级结果获取预先设置的对应处置建议，并将所述分级结果和处置建议进行关联，然后保存和输出所述分级结果和处置建议。

2.根据权利要求1所述的信息收集和分级方法，其特征在于，所述通过场景编码将目标人员的名单推送至电话策略平台，通过所述电话策略平台按照预先设置的呼叫策略发起语音通话，并调取对应场景编码下的语音话术进行对话，包括：

通过场景编码将目标人员的名单推送至电话策略平台；

所述电话策略平台按照预先设置的呼叫策略发起语音通话；

在语音通话拨通后，所述电话策略平台调取场景编码对应的语音话术，并根据所述语音话术获取问题模板，然后按照问题模板依次进行提问；

在对话过程中，识别用户的回答内容，并根据回答内容进行反馈。

3.根据权利要求2所述的信息收集和分级方法，其特征在于，所述在对话过程中，识别用户的回答内容，并根据回答内容进行反馈，包括：

获取用户的回答内容，并将回答内容转换为文本，然后进行纠错、删除和插入单词的操作，以对文本进行补充和改写；

对处理后的文本经过自然语言理解框架，解析为结构化的语义表示；

根据解析出的语义表示，判断是否满足所询问的问题，如果无法满足，则

继续进行追问，以引导用户提供满足要求的回答内容。

4.根据权利要求3所述的信息收集和分级方法，其特征在于，所述在对话过程中，识别用户的回答内容，并根据回答内容进行反馈，还包括：

当解析出的语义表示为问句时，则根据所述语义表示确认用户的意图；

根据用户的意图在预设的语料库中查询候选答案集合；然后利用带注意力的Seq2Seq模型对候选答案集合中的答案进行排序，并选择得分最高的答案作为最终答案输出。

5.根据权利要求1所述的信息收集和分级方法，其特征在于，所述收集对话过程中的回答内容，然后将收集到的问答结果进行结构化保存得到回访信息，包括：

收集对话过程中的回答内容，然后对所述回答内容进行修订，得到标准回答内容；

将所述标准回答内容进行拆分，使每一拆分结果对应于预设的字段，然后将拆分结果进行结构化保存，得到回访信息。

6.一种信息收集和分级装置，其特征在于，包括：

分级单元，用于基于症状和流行病学史建立决策树模型，并根据所述决策树模型对回访信息进行分级处理，得到分级结果，保存所述分级结果；

所述分级单元包括：

样本获取单元，用于收集基于症状和流行病学史的样本；

选择单元，用于从所述样本中选择特征，并根据特征的重要度，构建子节点，并使越重要的特征越靠近根节点；

分裂单元，用于根据特征的分裂方式，对节点进行分裂，以构建决策树模型；所述决策树模型存储于区块链节点中，区块链上的每个节点都按照块链式结构存储完整的决策树模型数据，各区块链节点实现对应的数据处理；

所述分级单元还包括：

分级结果获取单元，用于利用构建好的决策树模型对回访信息进行分级处理，得到目标人员的分级结果；

关联保存单元，用于根据分级结果获取预先设置的对应处置建议，并将所述分级结果和处置建议进行关联，然后保存和输出所述分级结果和处置建议。

7.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的信息收集和分级方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的信息收集和分级方法。