CN110781662A

CN110781662A - 一种逐点互信息的确定方法和相关设备

Info

Publication number: CN110781662A
Application number: CN201911016392.XA
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-11
Anticipated expiration: 2039-10-21
Also published as: CN110781662B

Abstract

本申请实施例公开了一种逐点互信息的确定方法和相关设备，在计算第一文本和第二文本的逐点互信息时，可以获取第一文本、第二文本和包括多个文本的目标样本，然后，可以确定第一文本针对目标样本的第一出现频次和第二文本针对目标样本的第二出现频次。其中，第一出现频次是根据第一文本在目标样本中出现的第一数量和第二文本在目标样本中出现的第二数量得到的。最后，根据第一出现频次和第二出现频次，确定第一文本和第二文本的目标逐点互信息。该方法中，通过应用第二文本在目标样本中出现的第二数量对第一出现频次进行平滑处理，由此提高了计算逐点互信息的准确性。

Description

一种逐点互信息的确定方法和相关设备

技术领域

本申请涉及数据处理领域，特别是涉及一种逐点互信息的确定方法和相关设备。

背景技术

当用户在使用文档编辑软件输入文本内容时，可能会因为打字失误，使得输入的文本中包含错误的词语。该种情形下，文档编辑软件会自动对已输入的文本内容做错误检查，如果用户输入内容有错，则系统会以“标红”等方式提示用户，甚至会给出潜在的提示纠错串。

目前，用于输入文本检错的一种方式是通过统计当前输入词语与另外已输入词语在海量文本语料中的逐点互信息(Pointwise Mutual Information，PMI)值，并根据PMI值来判断该词语与上下文共现的概率。其中，PMI可以用于衡量两个词语间的相关程度。如此，当确定的PMI值越大，表示该当前输入词语的正确率越大，反之亦然。

发明内容

为了解决上述技术问题，本申请提供了一种逐点互信息的确定方法和相关设备，提高了计算逐点互信息的准确性。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供了一种逐点互信息的确定方法，所述方法包括：

获取第一文本、第二文本和包括多个文本的目标样本；

确定所述第一文本针对所述目标样本的第一出现频次和所述第二文本针对所述目标样本的第二出现频次，其中，所述第一出现频次是根据所述第一文本在所述目标样本中出现的第一数量和所述第二文本在所述目标样本中出现的第二数量得到的；

根据所述第一出现频次和第二出现频次，确定所述第一文本和第二文本的目标逐点互信息。

第二方面，本申请实施例提供了一种逐点互信息的确定方法，所述方法包括：

获取第一文本、第二文本和包括多个文本的目标样本；

根据所述第一文本、第二文本和所述目标样本，确定所述第一文本和所述第二文本的子逐点互信息；

根据所述第一文本和所述第二文本，确定所述语言模型分数；

根据所述子逐点互信息和所述语言模型分数，确定所述第一文本和第二文本的目标逐点互信息。

第三方面，本申请实施例提供了一种逐点互信息的确定装置，所述装置包括第一获取单元和第一确定单元：

所述第一获取单元，用于获取第一文本、第二文本和包括多个文本的目标样本；

所述第一确定单元，用于确定所述第一文本针对所述目标样本的第一出现频次和所述第二文本针对所述目标样本的第二出现频次，其中，所述第一出现频次是根据所述第一文本在所述目标样本中出现的第一数量和所述第二文本在所述目标样本中出现的第二数量得到的；

所述第一确定单元，还用于根据所述第一出现频次和第二出现频次，确定所述第一文本和第二文本的目标逐点互信息。

第四方面，本申请实施例提供了一种逐点互信息的确定装置，所述装置包括第二获取单元和第二确定单元：

所述第二获取单元，用于获取第一文本、第二文本和包括多个文本的目标样本；

所述第二确定单元，用于根据所述第一文本、第二文本和所述目标样本，确定所述第一文本和所述第二文本的子逐点互信息；

所述第二确定单元，还用于根据所述第一文本和所述第二文本，确定所述语言模型分数；

所述第二确定单元，还用于根据所述子逐点互信息和所述语言模型分数，确定所述第一文本和第二文本的目标逐点互信息。

第五方面，本申请实施例提供了一种用于逐点互信息的确定设备所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如第一方面所述的逐点互信息的确定方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如第一方面所述的逐点互信息的确定方法。

由上述技术方案可以看出，在计算第一文本和第二文本的逐点互信息时，可以获取第一文本、第二文本和包括多个文本的目标样本，然后，可以确定第一文本针对目标样本的第一出现频次和第二文本针对目标样本的第二出现频次。其中，第一出现频次是根据第一文本在目标样本中出现的第一数量和第二文本在目标样本中出现的第二数量得到的。最后，根据第一出现频次和第二出现频次，确定第一文本和第二文本的目标逐点互信息。该方法中，通过应用第二文本在目标样本中出现的第二数量对第一出现频次进行平滑处理，由此提高了计算逐点互信息的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种逐点互信息的确定方法的应用场景示意图；

图2为本申请实施例提供的一种逐点互信息的确定方法的流程图；

图3为本申请实施例提供的一种逐点互信息的确定装置结构图；

图4为本申请实施例提供的一种逐点互信息的确定装置结构图；

图5为本申请实施例提供的一种用于逐点互信息的确定设备；

图6为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

为了便于理解本申请实施例提供的技术方案，接下来对PMI进行详细介绍：PMI是互信息(Mutual Information，NMI)中的一种特例。其中，互信息源于信息论,主要用于衡量2个信号的关联程度。而PMI用于文本处理计算两个词语之间的关联程度。相比于传统的相似度计算,PMI的好处在于,从统计的角度确定词语共现的情况，进而分析出词语间语义的相关度或者与主题的相关情况。

在计算两个词语的PMI时，可以根据包括N个词语数量的海量文本资料进行计算。例如：在计算词语x和词语y间的PMI时，对应的PMI公式为PMI(x,y)＝log ₂[P(x,y)/(P(x)P(y))]。其中，P(x)＝N_x/N，N_x为词语x在海量文本资料出现的数量。P(y)＝N_y/N，N_y为词语y在海量文本资料出现的数量。P(x,y)＝N_(x,y)/(N/w)，N_(x,y)为词语x和词语y在海量文本资料出现的数量，w为窗口长度(窗口中词语数量)。

下面进行举例说明，假设基于文本资料(Docs)计算单词set和单词from的PMI(set,from)，该Docs中的单词总数为N’。可以分别计算P(set)、P(from)和P(set,from)。P(set)＝set在Docs中出现的数量/N’,P(from)＝from在Docs中出现的次数/N’，P(set,from)＝set和from在Docs共现的次数/(N’/w)。

其中，确定set和from共现的次数(Co(set,from))的方法如下：设定为窗口长度w＝5，则针对句子“we set from xx from xx in Chinese”，从set开始(包括set)的窗口(窗口长度为5)里包括“set from xx from xx”这5个单词。该窗口中，可以确定Co(set,from)＝1。

具体场景中，可能会出现如下情形：一个窗口中的set和from共现次数超过1，该种情形下，需要进行标准化处理。进行标准化处理的方式可以是：Co’(set,from)＝Co(set,from)/(w-1)。其中，Co’(set,from)可以是标准化后的一个窗口中的set和from共现次数，Co(set,from)可以是未进行标准化的一个窗口中的set和from共现次数。通过标准化的方式，可以保证P(set,from)≤P(set)。

申请人通过研究发现，一般情况下，应用PMI作为文本检错判定特征是适用的，但也存在例外的情况。举例来说，如果单纯在海量语料上统计“刘-德滑”和“刘-德华”的PMI值，可能会出现“刘-德滑”的PMI值高于“刘-德华”的PMI值的情形。

参见表1，该表1中展示了计算“刘-德滑”和“刘-德华”的PMI值时涉及的统计参数值。如表1所示，在完成“刘-德滑”和“刘-德华”的PMI值的计算后，“刘-德滑”的PMI值高于“刘-德华”的PMI值。

表1 PMI计算中涉及参数说明

也就是说，如果用户分别输入“刘德滑”和“刘德华”，由于“刘德滑”比“刘德华”的PMI值更大，导致确定“刘德滑”更有可能是正确的。但很明显，“刘德华”才是正确的。经过分析海量语料可知，因为针对“刘”和“德华”的组合，在语料中除了“刘”与“德华”的组合外，还包括“张”与“德华”的组合、“李”与“德华”的组合，等等，所以导致了“刘”和“德滑”的关联程度(或共现程度)高于“刘”和“德华”。

故，如何提高PMI的准确性是目前亟需解决的问题。

为了解决上述问题，本申请实施例提供了一种逐点互信息的确定方法，在为两个文本确定PMI时，通过向PMI的计算公式中引入平滑项，以提高PMI的准确率。

首先，对本申请实施例的应用场景进行介绍。本申请提供的逐点互信息的确定方法可以应用于数据处理设备，如终端设备、服务器。其中，终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑等设备。该逐点互信息的确定方法还可以应用到服务器中，该服务器可以是独立的服务器，也可以是集群中的服务器。

为了便于理解本申请的技术方案，下面结合实际应用场景对本申请实施例提供的逐点互信息的确定方法进行介绍。

参见图1，图1为本申请实施例提供的一种逐点互信息的确定方法的应用场景示意图。如图1所示，由服务器101来执行该逐点互信息的确定方法。

在本申请实施例中，第一文本和第二文本可以是两个不相同的文本，当需要为第一文本和第二文本计算它们间的逐点互信息时，服务器101可以获取第一文本、第二文本和目标文本。其中，目标文本中包括多个文本，基于目标文本，可以对第一文本和第二文本通过统计方式确定它们的PMI值。例如：目标文本可以是海量语料，目标文本中包括的文本可以是词语，即目标文本中包括多个词语。

服务器101可以确定第一文本针对目标样本的第一出现频次和第二文本针对目标样本的第二出现频次。其中，在确定第一出现频次时，可以根据第一文本在目标样本中出现的第一数量和第二文本在目标样本中出现的第二数量确定的。

最后，服务器101可以根据确定出的第一出现频次和第二出现频次，确定第一文本和第二文本的目标逐点互信息。

该方法中，通过应用第二文本在目标样本中出现的第二数量对第一出现频次进行平滑处理，由此提高了计算逐点互信息的准确性。

接下来，将以服务器作为数据处理设备为例，并结合附图对本申请实施例提供的逐点互信息的确定方法进行介绍。

参见图2，该图示出了本申请实施例提供的一种逐点互信息的确定方法的流程图，所述方法包括：

S201：获取第一文本、第二文本和包括多个文本的目标样本。

在具体实现中，第一文本和第二文本分别可以是词语。

为了方面描述，下面将第一文本记为y，第二文本记为x，目标文本记为Docs，目标文本中包括N个文本。

S202：确定第一文本针对目标样本的第一出现频次和第二文本针对目标样本的第二出现频次。

在本申请实施例中，服务器在确定第一出现频次P'(y)时，可以根据第一文本在目标样本中出现的第一数量N_y和第二文本在目标样本中出现的第二数量N_x确定，即，通过第二数量对第一出现频次进行了平滑处理。具体的，第一出现频次可以是第一数量与第二数量的商，即，P'(y)＝N_y/N_x。

在具体实现中，第二出现频次P(x)可以是第一数量N_x与目标文本中包括的文本数量N的商，即，P(x)＝N_x/N。

S203：根据第一出现频次和第二出现频次，确定第一文本和第二文本的目标逐点互信息。

由此，服务器可以通过第一出现频次和第二出现频次，确定第一文本和第二文本的目标逐点互信息。

在具体实现中，服务器可以通过如下公式确定第一文本和第二文本的逐点互信息：PMI'＝log₂[(N_(x,y)/(N·w))/(P_(x)·P'_(y))]。其中，N_(x,y)可以是第一文本y和第二文本x在目标文本中共现的数量，w为窗口长度。

下面基于表1对应的示例，对S201-S203的方法进行举例说明。假设第一文本为“德华”，第二文本为“刘”，通过目标文本确定出第一数量和第二数量分别为3238007和74379645。

在本申请实施例中，可以对第一出现频次P(y)＝N_y/N进行平滑，平滑为P'(y)＝N_y/N_x，将平滑后的P'(y)＝N_y/N_x替代P(y)＝N_y/N代入至PMI的计算公式中。也就是说，进行平滑后的PMI计算公式可以是PMI'＝log₂[(N_(x,y)/(N·w))/((N_x/N)·(N_y/N_x))]，在通过平滑后的PMI计算公式计算出“刘”和“德华”的PMI’值为：PMI'(刘-德华)＝5.045。

相应的，还可以通过S201-S203的方法对“刘”和“德滑”的文本的PMI值进行计算，得到“刘”和“德滑”的PMI’值为：PMI'(刘-德滑)＝1.178。

可见，基于S201-S203的方法为两个文本确定的PMI值，可以更准确的确定“刘德滑”输错的可能性明显大于“刘德华”。

由上述技术方案可以看出，在计算第一文本和第二文本的逐点互信息时，可以获取第一文本、第二文本和包括多个文本的目标样本，然后，可以确定第一文本针对目标样本的第一出现频次和第二文本针对目标样本的第二出现频次其中，第一出现频次是根据第一文本在目标样本中出现的第一数量和第二文本在目标样本中出现的第二数量得到的。最后，根据第一出现频次和第二出现频次，确定第一文本和第二文本的目标逐点互信息。该方法中，通过应用第二文本在目标样本中出现的第二数量对第一出现频次进行平滑处理，由此提高了计算逐点互信息的准确性。

在一种可能的实现方式中，也可以对第二出现频次进行平滑，第二出现频次P'(x)可以是根据第一数量N_y和第二数量N_x得到的。具体实现中，P'(x)＝N_x/N_y。也就是说，在计算两个文本的PMI值时，可以同时对第一出现频次和第二出现频次同时进行平滑，从而为两个文本确定出更准确的PMI值。

在实际场景中，第一文本可以是一个词语，第一文本也可以是包括两个或多个词语的文本片段，例如：当第一文本为“北京欢迎你”时，该第一文本包括了“北京”、“欢迎”和“你”这三个词语。在第一文本包括至少两个词语的情形下，在一种可能的实现方式中，S202中确定第一文本针对目标样本的第一出现频次的方法，可以包括：

S301：确定每个第一词语在目标文本中出现的第一子数量。

为了方便描述，假设第一文本中包括m个词语，将每个第一词语记为wj，j＝1,2,3…,m，服务器可以确定每个第一词语在目标文本中出现的第一子数量N_wj。

S302：根据所有第一子数量和第二数量，确定每个第一词语对应的第一出现子频次。

在具体实现中，S302的方法可以包括：

首先，服务器可以将第一文本中的m个第一词语进行排序，使得每个第一词语具有对应的序号。然后，服务器在确定第一词语wj对应的第一出现子频次P'(x,wj)时，可以通过

来计算。其中，可以将

理解为，针对于第一文本中序号大于等于j且小于等于m的第一词语，

为这些第一词语对应的第一子数量的乘积。

下面对S302的方法进行举例说明，假设第一文本包括“北京”、“欢迎”和“你”这三个第一词语，将这三个第一词语进行排序，使得“北京”、“欢迎”和“你”分别对应序号1、序号2和序号3，且这三个第一分词对应的第一子数量分别为N_w1、N_w2和N_w3。如此，在通过公式

确定“欢迎”(序号2)对应的第一出现子频次P'(x,w2)时，

其中，

则，S203中根据第一出现频次和第二出现频次，确定第一文本和第二文本的目标逐点互信息的方法，可以包括：

S303：根据第二出现频次和每个第一词语对应的第一出现子频次，确定每个第一词语的子逐点互信息。

其中，针对S303中确定每个第一词语的子逐点互信息PMI(x,wj)的方法，可以包括：服务器通过公式PMI(x,wj)＝P_(x,wj)/(P_x·P'_(x,wj))，计算每个词语的子逐点互信息。

S304：根据子逐点互信息，确定第一文本和第二文本的目标逐点互信息。

其中，S304的方法可以包括：服务器将所有第一词语的子逐点互信息进行相加，得到第一文本和第二文本的目标逐点互信息。

在该方法中，将第一文本中包括两个或多个第一词语的情况也考虑在内，进一步保证了准确计算PMI的全面性。

实际场景中，可能会出现第一文本和第二文本中均为包括多个词语的文本片段的情形。在一种可能的实现方式中，若第一文本包括至少两个第一词语且第二文本包括至少两个第二词语，S202中确定第一文本针对目标样本的第一出现频次的方法，可以包括：

S401：分别确定第一词语在目标文本中出现的第一子数量和第二词语在目标文本中出现的第二子数量。

为了方便描述，假设第二文本中包括n个词语，将每个第二词语记为wi，i＝1,2,3…,n，服务器可以确定每个第二词语在目标文本中出现的第二子数量N_wi。

S402：根据所有第一子数量和所有第二子数量，确定每个第一词语对应的第一出现子频次。

S402的方法可以包括：服务器分别对第一文本中的m个第一词语和第二文本中的n个第二词语进行排序，使得每个第一词语和每个第二词语都具有对应的序号。然后，在确定第一词语wj对应的第一出现子频次P'(wi,wj)时，可以通过

来计算。其中，对

的理解可以如前S302中的表述所述，此处不再赘述。

接下来对进行介绍。其中，可以将

理解为：针对第二文本中序号大于等于i且小于等于n的第二词语，为这些第二词语对应的第二子数量的乘积。而

可以将其理解为，分别计算出i＝1,2,3,…,n对应的

再将它们进行求和，得到

也就是说，

S202中确定第二文本针对目标样本的第二出现频次的方法，可以包括：

S403：根据第二子数量和目标文本中的文本数量，确定每个第二词语对应的第二出现子频次。

S403的方法可以包括：服务器可以根据公式P_wi＝N_wi/N计算每个第二词语对应的第二出现子频次。

则，S203中根据第一出现频次和第二出现频次确定第一文本和第二文本的逐点互信息的方法，可以包括：

S404：根据每个第一出现子频次和每个第二出现子频次，确定每个第一词语针对每个第二词语的子逐点互信息。

其中，针对S403中确定每个第一词语的子逐点互信息PMI(wi,wj)的方法，可以包括：通过公式PMI(wi,wj)＝P_(wi,wj)/(P_wi·P'_(x,wj))，计算每个词语的子逐点互信息。

S405：根据子逐点互信息，确定第一文本和第二文本的逐点互信息。

S405的方法可以包括：将所有第一词语的子逐点互信息进行相加，得到第一文本和第二文本的目标逐点互信息。

在该方法中，将第一文本和第二文本中均包括两个或多个词语的情况考虑在内，进一步保证了准确计算PMI的全面性。

针对上述技术问题，本申请实施例还提供了另一种逐点互信息的确定方法，该方法可以包括：

S501：获取第一文本、第二文本和包括多个文本的目标样本。

该步骤的方法如前述S201所述，此处不再赘述。

S502：根据第一文本、第二文本和目标样本，确定第一文本和第二文本的子逐点互信息。

服务器可以应用公式PMI(x,y)＝log₂[P(x,y)/(P(x)P(y))](即相关技术中的PMI计算公式)，并根据第一文本、第二文本和目标样本，来确定出第一文本和第二文本的子逐点互信息PMI(x,y)。

S503：根据第一文本和第二文本，确定语言模型分数。

在本申请实施例中，可以预先建立一个语言模型(Language Model，LM)，以使其实现如下功能：将第一文本和第二文本输入至该语言模型后，可以输出该第一文本与第二文本关于语言模型分数，该语言模型参数可以是语言模型根据第一文本和第二文件间语言客观事实得到的分数。

这样，服务器可以根据第一文本和第二文本，确定出语言模型分数。

S504：根据子逐点互信息和语言模型分数，确定第一文本和第二文本的目标逐点互信息。

在一种可能的方式中，S504中根据子逐点互信息和语言模型分数，确定所述第一文本和第二文本的目标逐点互信息的方法，包括：

服务器可以计算子逐点互信息和语言模型分数的总和或乘积，作为第一文本和第二文本的目标逐点互信息。

如此，基于前述示例，即使“刘”和“德滑”这两个文本的PMI值虚高，但由于其语言模型分数较低，最终的目标逐点互信息仍会被打压下来，保证了PMI值计算的准确性。

通过该方法，可以将语言模型分数也考虑进来，由此以减小逐点互信息带来的不准确影响，提高了第一文本与第二文本的目标逐点互信息的准确性。

基于前述实施例提供的逐点互信息的确定方法，本申请实施例提供一种逐点互信息的确定装置，参见图3，该图示出了本申请实施例提供的一种逐点互信息的确定装置结构图，所述装置包括第一获取单元301和第一确定单元302：

所述第一获取单元301，用于获取第一文本、第二文本和包括多个文本的目标样本；

所述第一确定单元302，用于确定所述第一文本针对所述目标样本的第一出现频次和所述第二文本针对所述目标样本的第二出现频次，其中，所述第一出现频次是根据所述第一文本在所述目标样本中出现的第一数量和所述第二文本在所述目标样本中出现的第二数量得到的；

所述第一确定单元302，还用于根据所述第一出现频次和第二出现频次，确定所述第一文本和第二文本的目标逐点互信息。

在一种可能的实现方式中，所述第二出现频次是根据所述第一数量和所述第二数量得到的。

在一种可能的实现方式中，所述第一确定单元302，还具体用于：

若所述第一文本包括至少两个第一词语，所述确定所述第一文本针对所述目标样本的第一出现频次，确定每个所述第一词语在所述目标文本中出现的第一子数量；

根据所有所述第一子数量和所述第二数量，确定每个第一词语对应的第一出现子频次；

则，所述根据所述第一出现频次和第二出现频次，确定所述第一文本和第二文本的目标逐点互信息，包括：

根据所述第二出现频次和所述每个第一词语对应的第一出现子频次，确定每个第一词语的子逐点互信息；

根据所述子逐点互信息，确定所述第一文本和第二文本的目标逐点互信息。

若所述第一文本包括至少两个第一词语且所述第二文本包括至少两个第二词语，所述确定所述第一文本针对所述目标样本的第一出现频次，分别确定所述第一词语在所述目标文本中出现的第一子数量和所述第二词语在所述目标文本中出现的第二子数量；

根据所有所述第一子数量和所有所述第二子数量，确定每个所述第一词语对应的第一出现子频次；

所述确定所述第二文本针对所述目标样本的第二出现频次，包括：

根据所述第二子数量和所述目标文本中的文本数量，确定每个所述第二词语对应的第二出现子频次；

根据每个所述第一出现子频次和每个所述第二出现子频次，确定每个所述第一词语针对每个所述第二词语的子逐点互信息；

参见图4，该图示出了本申请实施例提供的一种逐点互信息的确定装置结构图，所述装置包括第二获取单元401和第二确定单元402：

所述第二获取单元401，用于获取第一文本、第二文本和包括多个文本的目标样本；

所述第二确定单元402，用于根据所述第一文本、第二文本和所述目标样本，确定所述第一文本和所述第二文本的子逐点互信息；

所述第二确定单元402，还用于根据所述第一文本和所述第二文本，确定所述语言模型分数；

所述第二确定单元402，还用于根据所述子逐点互信息和所述语言模型分数，确定所述第一文本和第二文本的目标逐点互信息。

在一种可能的实现方式中，所述第二确定单元402，还具体用于：

计算所述子逐点互信息和所述语言模型分数的总和或乘积，作为所述第一文本和第二文本的目标逐点互信息。

由上述技术方案可以看出，在计算两个文本的逐点互信息时，可以将语言模型分数也考虑进来，由此以减小逐点互信息带来的不准确影响，提高了第一文本与第二文本的目标逐点互信息的准确性。

本申请实施例还提供了一种用于逐点互信息的确定设备，下面结合附图对用于逐点互信息的确定设备进行介绍。请参见图5所示，本申请实施例提供了一种用于逐点互信息的确定设备500，该设备500还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图5示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图5，手机包括：射频(Radio Frequency，简称RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，简称WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器580还具有以下功能：

获取第一文本、第二文本和包括多个文本的目标样本；

本申请实施例提供的用于逐点互信息的确定设备可以是服务器，请参见图6所示，图6为本申请实施例提供的服务器600的结构图，服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图6所示的服务器结构。

其中，CPU622用于执行如下步骤：

获取第一文本、第二文本和包括多个文本的目标样本；

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种逐点互信息的确定方法，其特征在于，所述方法包括：

获取第一文本、第二文本和包括多个文本的目标样本；

2.根据权利要求1所述的方法，其特征在于，所述第二出现频次是根据所述第一数量和所述第二数量得到的。

3.根据权利要求1或2所述的方法，其特征在于，若所述第一文本包括至少两个第一词语，所述确定所述第一文本针对所述目标样本的第一出现频次，包括：

确定每个所述第一词语在所述目标文本中出现的第一子数量；

4.根据权利要求1或2所述的方法，其特征在于，若所述第一文本包括至少两个第一词语且所述第二文本包括至少两个第二词语，所述确定所述第一文本针对所述目标样本的第一出现频次，包括：

分别确定所述第一词语在所述目标文本中出现的第一子数量和所述第二词语在所述目标文本中出现的第二子数量；

5.一种逐点互信息的确定方法，其特征在于，所述方法包括：

获取第一文本、第二文本和包括多个文本的目标样本；

6.根据权利要求5所述的方法，其特征在于，所述根据所述子逐点互信息和所述语言模型分数，确定所述第一文本和第二文本的目标逐点互信息，包括：

7.一种逐点互信息的确定装置，其特征在于，所述装置包括第一获取单元和第一确定单元：

8.一种逐点互信息的确定装置，其特征在于，所述装置包括第二获取单元和第二确定单元：

9.一种用于逐点互信息的确定设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6所述的逐点互信息的确定方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6所述的逐点互信息的确定方法。