CN107748755B

CN107748755B - 同义词挖掘方法、装置、设备和计算机可读存储介质

Info

Publication number: CN107748755B
Application number: CN201710852095.3A
Authority: CN
Inventors: 周文礼; 张二磊; 王娜敏; 刘杰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2019-11-05
Anticipated expiration: 2037-09-19
Also published as: WO2019056781A1; CN107748755A

Abstract

本发明提供了一种同义词挖掘方法、装置、设备和计算机可读存储介质，涉及机器语言领域。该同义词挖掘方法，包括：获取同义词候选资源集，同义词候选资源集包括多条机器数据；识别同义词候选资源集中每条机器数据具有的上下文信息，根据预设的特征词词典，提取每条机器数据的上下文信息中的特征词；对同义词候选资源集中具有相同特征词的多条机器数据进行文本分析，得到同义词集合,同义词集合包括具有相同特征词的至少两条机器数据所具有的同义词。利用本发明的技术方案能够实现在机器语言环境中的同义词挖掘。

Description

同义词挖掘方法、装置、设备和计算机可读存储介质

技术领域

本发明涉及机器语言领域，尤其涉及一种同义词挖掘方法、装置、设备和计算机可读存储介质。

背景技术

在工作、学习或生活等方面，人们常使用搜索引擎技术来搜索自己想要查询的内容。搜索引擎根据用户的输入，为用户搜索与输入相关的内容。由于地区或文化水平等方面的差异，用户的输入可能会与一部分相关内容中的描述不相同。为了能够为用户搜索到更多的相关内容，搜索引擎需要挖掘出与用户的输入对应的同义词，从而在用户的输入和与用户的输入对应的同义词的基础上进行搜索。

在机器语言的环境中，用户有时也需要在机器语言编写的数据中进行搜索。由于在软件开发过程中，不同开发人员负责不同模块的开发，或者，不同模块语言模式的设置不同，使得表示同样意思的词或词组在不同的机器数据中的写法不同。为了能够提供更多与用户的搜索意图匹配的内容，也需要挖掘用户的搜索意图的同义词。但是，由于现有的同义词挖掘方法适用于自然语言，而机器语言与自然语言的差异较大，现有的同义词挖掘方法并不适用于机器语言环境。因此，目前急需一种适用于机器语言环境的同义词挖掘方法。

发明内容

本申请提供了一种同义词挖掘方法、装置、设备和计算机可读存储介质，能够实现在机器语言环境中的同义词挖掘。

第一方面，本申请提供了一种同义词挖掘方法，包括：获取同义词候选资源集，同义词候选资源集包括多条机器数据；识别同义词候选资源集中每条机器数据具有的上下文信息，根据预设的特征词词典，提取每条机器数据的上下文信息中的特征词；对同义词候选资源集中具有相同特征词的多条机器数据进行文本分析，得到同义词集合,同义词集合包括具有相同特征词的至少两条机器数据所具有的同义词。

采用本申请中的技术方案，基于上下文信息中提取的特征词，在大量机器数据中筛选得到同一专业或领域中的同义词出现概率高的对应的两条以上的机器数据。继而在同义词出现概率高的机器数据中挖掘得到同义词，进而实现在机器数据中的同义词挖掘。

根据第一方面，在第一方面的第一种可能中，获取同义词候选资源集，包括：按照预设的符号集中的符号，将每条机器数据划分为至少一个数据颗粒，机器数据包括符号集中的至少一个符号，数据颗粒包括至少一个词语；识别每个数据颗粒中的对象标识，对象标识被符号标记；依据对象标识的组成模式，计算对象标识的随机性概率；将对象标识相同，且对象标识的随机性概率小于或等于预设概率阈值的多条机器数据，作为同义词候选资源集。采用本申请的技术方案，利用对象标识的随机性概率确定同义词候选资源集中的机器数据，减小了同义词候选资源集中的机器数据中不存在同义词的概率，进而提高了机器数据中挖掘同义词的准确率和效率。

根据第一方面的第一种可能，在第一方面的第二种可能中，识别同义词候选资源集中每条机器数据具有的上下文信息，根据预设的特征词词典，提取每条机器数据的上下文信息中的特征词，包括：查找每个数据颗粒中的非对象标识,如果数据颗粒具有非对象标识,获取数据颗粒所在机器数据的上下文信息，获取的上下文信息包括数据颗粒、在数据颗粒所在机器数据的时间戳与数据颗粒之间的数据，查找获取的上下文信息中与特征词词典匹配的词语，查找到的词语为特征词。采用本申请的技术方案，利用特征词词典提取特征词，规定同义词的使用专业或使用领域相同，从而提高同义词挖掘的准确性。

根据第一方面的第一种可能或第二种可能，在第一方面的第三种可能中，对同义词候选资源集中具有相同特征词的多条机器数据进行文本分析，得到同义词集合，包括：按照预设的符号集中的符号，在同义词候选资源集中具有相同特征词的多条机器数据内，查找相同的对象标识对应的词语，组成同义词集合；和/或，按照预设的符号集中的符号和机器数据中词语的词性，在同义词候选资源集中具有相同特征词的多条机器数据内，查找相同的对象标识对应的词组，组成同义词集合。

根据第一方面的第一种可能，在第一方面的第四种可能中，同义词候选资源集中的机器数据的时间戳之间的时间间隔在预设的时长范围内。采用本申请的技术方案，去除时间戳的时间间隔过大的机器数据，避免由于时间间隔过大的机器数据的干扰引起的同义词候选资源集中同义词出现概率低的问题，提高同义词候选资源集中出现同义词的概率。

根据第一方面的第一种可能，在第一方面的第五种可能中，同义词候选资源集包括两条机器数据，且两条机器数据的时间戳相邻；方法还包括：获取包含相同特征词的多个同义词候选资源集对应的同义词集合，合并获取的同义词集合。采用本申请的技术方案，通过相邻的时间戳，去除降低同义词挖掘准确率的机器数据，从而提高了同义词挖掘的准确率。合并获取的同义词集合，可得到同义词总集，从而扩大同义词的范围，便于搜索或分类中进行查询。

根据第一方面的第五种可能，在第一方面的第六种可能中，在获取同义词候选资源集之前，还包括：采集得到时间戳距离当前时刻预设时间长度内的机器数据。采用本申请的技术方案，避免将大量无关机器数据引入同义词挖掘，从而提高同义词挖掘的效率。

第二方面，本申请提供了一种同义词挖掘装置，包括：资源集获取单元，被配置为获取同义词候选资源集，所述同义词候选资源集包括多条机器数据；特征词提取单元，被配置为识别所述同义词候选资源集中每条机器数据具有的上下文信息，根据预设的特征词词典，提取每条机器数据的上下文信息中的特征词；同义词获取单元，被配置为对所述同义词候选资源集中具有相同特征词的多条机器数据进行文本分析，得到同义词集合,所述同义词集合包括具有相同特征词的至少两条机器数据所具有的同义词。。

根据第二方面，在第二方面的第一种可能中，所述资源集获取单元，包括：颗粒划分模块，被配置为按照预设的符号集中的符号，将每条机器数据划分为至少一个数据颗粒，所述机器数据包括所述符号集中的至少一个符号，所述数据颗粒包括至少一个词语；对象标识识别模块，被配置为识别每个所述数据颗粒中的对象标识，所述对象标识被所述符号标记；概率计算模块，被配置为依据所述对象标识的组成模式，计算所述对象标识的随机性概率；资源集获取模块，被配置为将所述对象标识相同，且所述对象标识的随机性概率小于或等于预设概率阈值的多条机器数据，作为同义词候选资源集。。

根据第二方面的第一种可能，在第二方面的第二种可能中，所述特征词提取单元，包括：特征词查找模块，查找每个所述数据颗粒中的非对象标识,如果所述数据颗粒具有非对象标识,获取所述数据颗粒所在机器数据的上下文信息，获取的上下文信息包括所述数据颗粒、在所述数据颗粒所在机器数据的时间戳与所述数据颗粒之间的数据，查找所述获取的上下文信息中与所述特征词词典匹配的词语，查找到的词语为所述特征词。

根据第二方面的第一种可能或第二种可能，在第二方面的第三种可能中，所述同义词获取单元，包括：第一获取模块，被配置为按照预设的符号集中的符号，在所述同义词候选资源集中具有相同特征词的多条所述机器数据内，查找相同的所述对象标识对应的词语，组成同义词集合；和/或，第二获取模块，被配置为按照预设的符号集中的符号和所述机器数据中词语的词性，在所述同义词候选资源集中具有相同特征词的多条所述机器数据内，查找相同的所述对象标识对应的词组，组成同义词集合。

根据第二方面的第一种可能，在第二方面的第四种可能中，所述同义词候选资源集中的所述机器数据的时间戳之间的时间间隔在预设的时长范围内。

根据第二方面的第四种可能，在第二方面的第五种可能中，所述同义词候选资源集包括两条所述机器数据，且两条所述机器数据的时间戳相邻；所述装置还包括：合并单元，被配置为获取包含相同特征词的多个所述同义词候选资源集对应的同义词集合，合并获取的同义词集合。

根据第二方面，在第二方面的第六种可能中，上述同义词挖掘装置还包括：机器数据采集单元，被配置为采集得到时间戳距离当前时刻预设时间长度内的所述机器数据。

第三方面，本申请提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如上述技术方案中的同义词挖掘方法。

第四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质上存储有程序，该程序被处理器执行时实现如上述技术方案中的同义词挖掘方法。

本申请提供了一种同义词挖掘方法、装置、设备和计算机可读存储介质。在同义词候选资源集中获取机器数据的上下文信息。对上下文信息中提取出的特征词相同的机器数据进行文本分析，得到同义词集合。特征词可确定机器数据中的对象即词语的专业或领域，从而确定在同一专业或同一领域内相同或相近含义的词语，作为同义词，组成同义词集合。从而实现机器语言环境中的同义词挖掘。在机器数据的搜索或分类等应用场景中，可利用本发明实施例中挖掘出的同义词，丰富搜索范围和分类范围，提供与用户意图更加匹配的内容。

附图说明

图1为本发明一实施例中一种同义词挖掘方法的流程图；

图2为本发明另一实施例的一种同义词挖掘方法的流程图；

图3为本发明一实施例中一种同义词挖掘装置的结构示意图；

图4为本发明另一实施例中一种同义词挖掘装置的结构示意图；

图5为本发明又一实施例中一种同义词挖掘装置的结构示意图；

图6为发明一实施例中的一种计算机设备的硬件结构示意图。

具体实施方式

本发明实施例提供了一种同义词挖掘方法、装置、设备和计算机可读存储介质，可应用在机器语言的事件搜索引擎中。事件搜索引擎可对机器数据提供搜索、统计、学习等功能。在对机器数据进行搜索的过程中，为了能够提供更多与输入的查询内容匹配的内容。需要扩充搜索需要的关键词。因此，可挖掘查询内容中的词语的同义词，从而根据查询内容以及同义词进行搜索，以扩大搜索范围，丰富搜索内容。

图1为本发明一实施例中一种同义词挖掘方法的流程图。如图1所示，同义词挖掘方法可包括步骤S101至步骤S103。

在步骤S101中，获取同义词候选资源集。

其中，同义词候选资源集包括多条机器数据。在机器设备运行过程中，会产生机器数据。机器数据可包括机器日志、机器监控数据和机器警告数据等。机器数据由机器语言编写，在不同的模块或组件中产生的机器数据的写法可能不同，由不同的开发人员开发的软件运行产生的机器数据也有可能不同。在一个示例中，每条机器数据均可包括时间戳、上下文信息和正文信息。其中，时间戳、上下文信息和正文信息可包括符号，比如[]或“”或""或_等。

同义词候选资源集中的机器数据中出现同义词的概率较高。比如，同义词候选资源集中的多条机器数据中可包括相同的对象标识。对象标识用于标识对象，对象可指机器数据中的词语。比如，机器数据为[2016-12-28 16:37:49,437][http-nio-7443-exec-3][INFO][com.huawei.hwclouds.taskmgr.api.ebs.bpm.TaskServiceVolumes.checkCreateVolumeReq 356]create volume request of tenant[277f6ee90c0f4c01991327c3cdbe51b6],name[news265cd-node-35-volume-0001],type[SATA],size[100],az[rg-gz-1],orderId[null]。则其中的create、volume、request、name等均为词语，即均为对象。其中的277f6ee90c0f4c01991327c3cdbe51b6为对象标识。

在步骤S102中，识别同义词候选资源集中每条机器数据具有的上下文信息，根据预设的特征词词典，提取每条机器数据的上下文信息中的特征词。

在一个示例中，每条机器数据均可包括时间戳、上下文信息和正文信息。特征词位于上下文信息中，因此，需要识别出同义词候选资源集中的机器数据中的上下文信息。通过机器数据中的上下文信息中的特征词可确定机器数据中的对象的专业或领域。比如，对象为词语，通过机器数据中的上下文信息中的特征词可确定词语的专业或领域。

特征词词典包括能够表征特征的专有名词。专有名词指某个专业或领域中的命名实体。比如，命名实体可包括机构名、人名、地名、时间、日期、数量短语等。又比如，在云计算领域中，命名实体可包括开源代码的对象服务，例如Nova、Swift、Glance和keystone等。在存储领域中，命名实体可包括存储领域中的专用术语，例如Volume、Storage、主存储器、逻辑地址和物理地址等。在生物医学领域中，命名实体可包括基因名称、蛋白质名称、蛋白质结构属性名称、化合物名称、药物名称和疾病名称等。可根据预设的领域词典，在上下文信息中提取特征词，从而确定机器数据所属的专业或领域。

在步骤S103中，对同义词候选资源集中具有相同特征词的多条机器数据进行文本分析，得到同义词集合。

特征词相同，表示对象所述的专业或领域相同。在特征词相同的机器数据所属的同义词候选资源集挖掘到同义词的可能性更大。机器数据包括符号，比如[]或“”等符号。可根据特殊符号以及对象标识，对同义词候选资源集中的机器数据进行文本分析，得到与对象标识对应的词语。同义词集合包括具有相同特征词的至少两条机器数据所具有的同义词。

在一个实施例中，同义词挖掘方法可应用于日志分析的场景中，可将每一条日志视为一条机器数据。在不同数据源中的不同机器数据中相同含义的词语可能写法不同，比如，任务标识在不同的机器数据中可写为“TaskID”、“Task”或“Task_id”等。但实际上“TaskID”、“Task”或“Task_id”含义相同，可作为同义词。可利用本发明实施例中的同义词挖掘方法，将“TaskID”、“Task”和“Task_id”均定义为同义词。从而在查询“TaskID”时，能够提供与“TaskID”、“Task”和“Task_id”相关的机器数据。

在本发明实施例中，针对同义词候选资源集中的机器数据，可利用机器数据中的上下文信息中的特征词，确定在同一专业或同一领域内相同或相近含义的词语，作为同义词，组成同义词集。从而实现机器语言环境中的同义词挖掘。在机器数据的搜索或分类等应用场景中，可利用本发明实施例中挖掘出的同义词，丰富搜索范围和分类范围，提供与用户意图更加匹配的内容。

图2为本发明另一实施例中一种同义词挖掘方法的流程图。图2与图1的不同之处在于，图1中的步骤S101可具体细化为图2中的步骤S1011至步骤S1014；图1中的步骤S102可具体细化为图2中的步骤S1021和步骤S1022；图1中的步骤S103可具体细化为步骤S1031和/或步骤S1032。

在步骤S1011中，按照预设的符号集中的符号，将每条机器数据划分为至少一个数据颗粒。

其中，机器数据包括符号集中的至少一个符号。符号集可以根据机器数据编写规律和编写经验设定，且符号集可实时进行更新。数据颗粒包括至少一个词语。比如，机器数据为[2016-12-28 16:42:59,280][http-nio-7443-exec-23][INFO][com.huawei.hwclouds.taskmgr.executor.ebs.common.CommonOpenstackReq.putDomai nInfoToContext952]decode token for tenant[b6c02662c901420bb0883520dd275271]end。该机器数据涉及到的符号包括[]。其中，2016-12-28 16:42:59,280为时间戳，可用timestamp表示。则该机器数据可写作[timestamp][*][*][*]*[*]*。该机器数据划分为了[*]、[*]、[*]、*、[*]和*六个数据颗粒，*表示数据颗粒的内容。

在步骤S1012中，识别每个数据颗粒中的对象标识。

对象标识即对象ID，用于标识对象。对象标识与对象之间为强相关关系，从而能够借助对对象标识的系列操作，实现对相同或相近的对象的定位。在一个示例中，对象标识可以为包括数字和/或字母的字符串。

其中，对象标识被符号标记，即对象标识被符号所限定。比如，符号为[]，则对象标识为[]中的内容。则在步骤S1011的例子中，机器数据划分为了[*]、[*]、[*]、*、[*]和*六个数据颗粒，其中被符号标记的对象标识所属的数据颗粒为其中的四个[*]。也就是说，步骤S1011的例子中的四个对象标识分别为http-nio-7443-exec-23、INFO、com.huawei.hwclouds.taskmgr.executor.ebs.common.CommonOpenstackReq.putDomain InfoToContext952和b6c02662c901420bb0883520dd275271。

在步骤S1013中，依据对象标识的组成模式，计算对象标识的随机性概率。

对象标识可以是利用随机算法随机生成的。随机生成的对象标识均具有对应的随机性概率。随机性概率越低，表示对象标识随机出现的可能性越低。随机性概率可根据对象标识中的字符组成进行计算。

在一个示例中，对象标识的组成模式可包括数字字母混合模式和数字字母独立模式。比如，数字字母混合模式的对象标识为409eb18e59447cb40159448e6a1703a6。则可按照机器数据中的字符的排列先后顺序，从前到后依次分析，判断连续字符或连续字符是否与规范词典中的词语相同匹配。规范词典可包括常用词典以及数据库等。若匹配，则可将与规范词典中的词语匹配的连续字符排除，与规范词典中的词语规范词典匹配的数据切分片是规范有意义的词语，不参与随机性概率的计算。也就是说，与规范词典中的词语匹配的字符或连续字符不参与对象标识的随机性概率计算。利用与规范词典中的词语不匹配的字符或连续字符进行对象标识的随机性概率计算。对象标识409eb18e59447cb40159448e6a1703a6中无与规范词典中匹配的词语，可利用该对象标识中的所有字符计算对象标识的随机性概率。

又比如，数字字母独立模式的对象标识为news265cd-node-35-volume-0001。可根据规范词典，按照对象标识中字符的排列先后顺序，判断字符或连续字符是否与规范词典中的词语匹配，利用与规范词典中的词语不匹配的字符或连续字符进行对象标识的随机性概率计算。在对象标识news265cd-node-35-volume-0001中，news、node和volume均为规范词典中可以查找匹配到的词语，可将对象标识切分为多个数据分片，news265cd-node-35-volume-0001可切分为news、265cd、node、35、volume和0001这六个数据分片。利用其中的265cd、35和0001，计算对象标识的随机性概率。

具体的，对象标识的随机性概率等于对象标识中所有与规范词典中的词语不匹配的字符的转移概率的乘积。为了计算与规范词典不匹配的对象标识的随机性概率，可先获取与规范词典不匹配的对象标识中每个字符的转移概率。字符的转移概率与对象标识的组成模式相关。在一个示例中，若对象标识为数字字母混合模式，则每个字符(数字或字母)的转移概率为均匀分布。在另一个示例中，若对象标识为数字字母独立模式，则每个数字的转移概率为均匀分布，每个字母的转移概率为平均分布或字母转移概率表中记载的转移概率。计算与规范词典不匹配的对象标识中所有字符的转移概率的乘积，将该乘积作为对象标识的随机性概率。

在步骤S1014中，将对象标识相同，且对象标识的随机性概率小于或等于预设概率阈值的多条机器数据，作为同义词候选资源集。

对象标识相同指对象标识中的每个字符均相同。对象标识相同表示标识的对象即词语有可能为同一个对象即词语，为了提高挖掘同义词的准确性，还需要结合对象标识的随机性概率来判断多条机器数据是否可以作为同义词候选资源集。

随机性概率越大，则表示该对象标识随机出现的可能性越大。随机出现可能性大的对象标识所标识的对象的含义即使不同，对象标识也可能相同。为了避免挖掘出的同义词出现错误，要将随机性概率大于预设概率阈值的对象标识排除，也就是说，将随机出现可能性大的对象标识排除。保留随机性概率小于或等于预设概率阈值的对象标识。比如，义词候选资源集包括两条以上的机器数据，则两条以上的机器数据中均包括对象标识A，且对象标识A的随机性概率小于或等于预设概率阈值。

预设概率阈值可根据工作场景、工作需求或工作经验设定，在此并不限定。比如，预设概率阈值为50％、60％或70％。

在一个示例中，同义词候选资源集中的机器数据的时间戳之间的时间间隔在预设的时长范围内。时间戳可表示机器数据在某一时间已经存在，可视为机器数据的产生时间。时间戳之间的时间间隔超出预设的时长范围，则该时间戳对应的机器数据为没有关联的机器数据的可能性较大。也就是说，相邻的两个时间戳之间的时间间隔若超出的时长范围，则可排除该时间戳对应的机器数据作为同义词候选资源集的可能性。比如，若两条机器数据的时间戳之间的时间间隔为一年，则机器设备在这一年中有可能进行了程序升级，这两条机器数据中即使存在相同的对象标识，也有很大可能两条机器数据中不存在同义词。预设的时长范围可根据工作场景、工作需求或工作经验设定。排除时间戳之间的时间间隔超出预设的时长范围的机器数据，提高同义词挖掘的效率。

在一个示例中，同义词候选资源集包括两条机器数据，且两条机器数据的时间戳相邻。在获取包含相同特征词的多个同义词候选资源集对应的同义词集合时，可获取包含相同特征词的多个同义词候选资源集对应的同义词集合，合并获取的同义词集合，从而得到同义词总集。同义词总集包括两个以上同义词集合中的同义词。

在完成一项任务的过程中，会产生一系列的机器数据，这一系列的机器数据的时间戳具有时间顺序。可根据时间戳的时间顺序得知机器数据产生的顺序。在完成一项任务过程中产生的一系列机器数据中存在同义词的可能性较大。某一条机器数据的时间戳表示的时间之前或之后的一个以上的时间戳中，与该条机器数据的时间戳表示的时间之前或之后最接近的时间戳与该条机器数据的时间戳相邻。也就是说，两个相邻的时间戳之间的时间段中没有产生新的机器数据。时间戳相邻的两条机器数据具有同属一项任务过程的可能。也就是说，时间戳相邻的两条机器数据存在同义词的可能性较大。

在一个示例中，由于不同的机器数据中的时间戳的格式可能不同，为了便于后续步骤中利用时间戳，可将时间戳的格式统一。比如，一条机器数据为[28/Dec/2016:16:34:23+0800]"GET/v1//jobs/409eb18d593a0e6801593a66dc300ae4HTTP/1.1"400 73。其中28/Dec/2016:16:34:23+0800为时间戳。该条机器数据的时间戳位于中括号中。另一条机器数据为2016-12-15T18:52:30.667+08:00localhostcinder-volume-vrm001DEBUG[pid:197810][MainThread][tid:47541884614128][periodic_task.py:193run_periodic_tasks]Running periodic taskVolumeManager._report_driver_status。其中，2016-12-15T18:52:30.667+08:00为时间戳。为了便于对比时间戳是否相邻，可将上述两条机器数据中的时间戳的格式均转换为28/Dec/2016:16:34:23+0800的格式。

在多个同义词候选资源集中，可以将多个同义词候选资源集中得到的同义词集合，再次进行合并，从而得到同义词集。比如，在第一个同义词候选资源集中，能够得到词语A和词语B组成同义词集合。在第二个同义词候选资源集中，能够得到词语B和词语C组成同义词集合。且第一个同义词候选资源集的特征词与第二个同义词候选资源集的特征词相同，那么可将词语A、词语B和词语C合并为一个同义词总集。从而扩大同义词的范围，便于搜索或分类中进行查询。

在步骤1021中，查找每个数据颗粒中的非对象标识,如果数据颗粒具有非对象标识,获取数据颗粒所在机器数据的上下文信息。

其中，非对象标识不是对象标识。获取的上下文信息包括数据颗粒、在数据颗粒所在机器数据的时间戳与数据颗粒之间的数据。

在一个示例中，由于机器数据的组成部分的顺序一般依次为时间戳、上下文信息和正文信息，且正文信息容易判断。因此，可按照数据颗粒在机器数据中的排列先后顺序，从后到前依次判断数据颗粒中是否存在非对象标识，直至当前数据颗粒存在非对象标识，停止判断。比如，在步骤S1011的举例中，机器数据[timestamp][*][*][*]*[*]*，按照数据颗粒在机器数据中的排列先后顺序，从后到前依次判断*、[*]、*、[*]、[*]和[*]。需要说明的是，若首次在数据颗粒中发现非对象标识，则不需要再对其他还未进行判断的数据颗粒进行判断。在判断过程中，*、[*]和*中包括对象标识。之后的[*]包括非对象标识，则后面的两个[*]不需要再进行判断。从后到前判断包括对象标识的数据颗粒为正文信息。也就是说，将首次发现的包含非对象标识的数据颗粒，以及时间戳和首次发现的包含非对象标识的数据颗粒之间的数据颗粒。因此，上下文信息为[*][*][*]，即[http-nio-7443-exec-23][INFO][com.huawei.hwclouds.taskmgr.executor.ebs.common.CommonOpenstackReq.putDomainInfoToContext 952]为上下文信息。

在步骤1022中，查找获取的上下文信息中与特征词词典匹配的词语，查找到的词语为特征词。

特征词词典中包括一个以上的词，特征词词典可根据工作场景或工作需求预先设定。特征词相同，表示对象标识对应的词语的专业或领域相同。比如，在上述步骤S1011的举例中，特征词词典中包括ebs和Openstack两个特征词，在上下文信息中得到与特征词词典匹配的两个词语，分别为ebs和Openstack，将ebs和Openstack作为上下文信息中的特征词。

在步骤1031中，按照预设的符号集中的符号，在同义词候选资源集中具有相同特征词的多条机器数据内，查找相同的对象标识对应的词语，组成同义词集合。

在一个示例中，同义词可为单纯的词语。在特征词相同，即专业或领域相同的同义词候选资源集中，根据机器数据中出现的符号集中的符号，可以定位得到相同的对象标识前的词语，可以将同义词候选资源集中具有相同特征词的多条机器数据内相同对象标识前的词语，作为同义词。

在步骤1032中，按照预设的符号集中的符号和机器数据中词语的词性，在同义词候选资源集中具有相同特征词的多条机器数据内，查找相同的对象标识对应的词组，组成同义词集合。

在一个示例中，同义词可为两个以上的词语组成的词组。在特征词相同，即专业或领域相同的同义词候选资源集中，根据机器数据中出现的符号集中的符号，可以定位得到相同的对象标识前的词语。根据词语的词性，可以得到复合词即词组。可以将同义词候选资源集中具有相同特征词的多条机器数据内相同对象标识前的词组，作为同义词。

下面以一个同义词候选资源集为例说明如何得到同义词。同义词候选资源集包括两条机器数据，分别为第一条机器数据和第二条机器数据。

第一条机器数据为[2016-12-28 16:37:49,437][http-nio-7443-exec-3][INFO][com.huawei.hwclouds.taskmgr.api.ebs.bpm.TaskServiceVolumes.checkCreateVolumeReq 356]create volume request of tenant[277f6ee90c0f4c01991327c3cd be51b6],name[news265cd-node-35-volume-0001],type[SATA],s ize[100],az[rg-gz-1],orderId[null]。

第二条机器数据为[2016-12-28 16:37:49,440][http-nio-7443-exec-3][INFO][com.huawei.hwclouds.taskmgr.api.ebs.bpm.TaskServiceVolumes.checkAzValid 223]check AZ[rg-gz-1]of volume[news265cd-node-35-volume-0001]end。

按照本发明实施例中的同义词挖掘方法，可以得到第一条机器数据的上下文信息为[http-nio-7443-exec-3][INFO][com.huawei.hwclouds.taskmgr.api.ebs.bpm.Tas kServiceVolumes.checkCreateVolumeReq 356]create volume request of tenant[277f6ee90c0f4c01991327c3cdbe51b6]。

第二条机器数据的上下文信息为[http-nio-7443-exec-3][INFO][com.huawei.hwclouds.taskmgr.api.ebs.bpm.TaskServiceVolumes.checkAzValid223]。

预设的特征词词典包括词语wclouds、ebs和bpm，且第一条机器数据的上下文信息和第二条机器数据的上下文信息中均具有wclouds、ebs和bpm这三个词语。因此，特征词为wclouds、ebs和bpm。在特征词为wclouds、ebs和bpm的条件下，通过文本分析，得到第一条机器数据中的name和第二条机器数据中的volume为同义词。

在本发明又一实施例中，在获取同义词候选资源集之前，还可包括步骤S104。在步骤104中，采集得到时间戳距离当前时刻预设时间长度内的机器数据。

在进行同义词挖掘时，需要先获取机器数据。机器设备源源不断地产生机器数据，当因某些工作需求，需要的是近期的机器数据中的同义词。因此，可通过设定预设时间长度，从请求挖掘同义词的当前时刻开始，向前追溯预设时间长度，采集预设时间长度内的机器数据。然后从采集的机器数据中获取同义词候选资源集。避免将大量无关机器数据引入同义词挖掘，从而提高同义词挖掘的效率。

存在大量的机器数据的情况下，还可按照一定粒度划分出机器数据集，针对每一个机器数据集中的机器数据，获取同义词候选资源集。在一个示例中，可以按照预定规则，将大量的机器数据分为一个以上的机器数据集。比如，在机器设备运行的过程中会产生大量的机器数据，机器设备中的模块或组件各自分别会产生机器数据，可将同一模块产生的机器数据或同一组件产生的机器数据作为一个机器数据集。建立机器数据集可避免在无关的两条或多条机器数据中进行同义词挖掘，从而提高同义词挖掘的效率。

在一个示例中，可基于来源相同的机器数据，建立机器数据集。比如，存储在同一文件名下的机器数据可组成机器数集。又比如，相同的模块或相同的组件产生的机器数据可组成机器数据集。

在另一个示例中，基于数据类型相同的机器数据，建立机器数据集。数据类型可包括数据标准、数据形式等，在此并不限定。比如，符合syslog标准的机器数据可组成机器数据集。

图3为本发明一实施例中一种同义词挖掘装置200的结构示意图。如图3所示，同义词挖掘装置200可包括资源集获取单元201、特征词提取单元202、同义词获取单元203。

资源集获取单元201，被配置为获取同义词候选资源集.

其中，所述同义词候选资源集包括多条机器数据。

特征词提取单元202，被配置为识别所述同义词候选资源集中每条机器数据具有的上下文信息，根据预设的特征词词典，提取每条机器数据的上下文信息中的特征词。

同义词获取单元203，被配置为对所述同义词候选资源集中具有相同特征词的多条机器数据进行文本分析，得到同义词集合。

其中，所述同义词集合包括具有相同特征词的至少两条机器数据所具有的同义词。

特征词可确定机器数据中的对象即词语的专业或领域，从而确定在同一专业或同一领域内相同或相近含义的词语，作为同义词，组成同义词集合。从而实现机器语言环境中的同义词挖掘。在机器数据的搜索或分类等应用场景中，可利用本发明实施例中挖掘出的同义词，丰富搜索范围和分类范围，提供与用户意图更加匹配的内容。

图4为本发明另一实施例中一种同义词挖掘装置200的结构示意图。图4与图3的不同之处在于：

图3中的资源集获取单元201可包括图4中的颗粒划分模块2011、对象标识识别模块2012、概率计算模块2013和资源集获取模块2014。

图3中的特征词提取单元202可包括图4中的特征词查找模块2021。

图3中的同义词获取单元203可包括图4中的第一获取模块2031和/或第二获取模块2032。

颗粒划分模块2011，被配置为按照预设的符号集中的符号，将每条机器数据划分为至少一个数据颗粒。

其中，所述机器数据包括所述符号集中的至少一个符号，所述数据颗粒包括至少一个词语。

对象标识识别模块2012，被配置为识别每个所述数据颗粒中的对象标识，所述对象标识被所述符号标记。

概率计算模块2013，被配置为依据所述对象标识的组成模式，计算所述对象标识的随机性概率。

资源集获取模块2014，被配置为将所述对象标识相同，且所述对象标识的随机性概率小于或等于预设概率阈值的多条机器数据，作为同义词候选资源集。

在一个示例中，所述同义词候选资源集中的所述机器数据的时间戳之间的时间间隔在预设的时长范围内。

特征词查找模块2021，查找每个所述数据颗粒中的非对象标识,如果所述数据颗粒具有非对象标识,获取所述数据颗粒所在机器数据的上下文信息，获取的上下文信息包括所述数据颗粒、在所述数据颗粒所在机器数据的时间戳与所述数据颗粒之间的数据，查找所述获取的上下文信息中与所述特征词词典匹配的词语，查找到的词语为所述特征词。

第一获取模块2031，被配置为按照预设的符号集中的符号，在所述同义词候选资源集中具有相同特征词的多条所述机器数据内，查找相同的所述对象标识对应的词语，组成同义词集合。

第二获取模块2032，被配置为按照预设的符号集中的符号和所述机器数据中词语的词性，在所述同义词候选资源集中具有相同特征词的多条所述机器数据内，查找相同的所述对象标识对应的词组，组成同义词集合。

图5为本发明又一实施例中一种同义词挖掘装置200的结构示意图。图5与图3的不同之处在于，图5所示的同义词挖掘装置200还可包括合并单元204和机器数据采集单元205。

合并单元204，被配置为获取包含相同特征词的多个所述同义词候选资源集对应的同义词集合，合并获取的同义词集合。

其中，所述同义词候选资源集包括两条所述机器数据，且两条所述机器数据的时间戳相邻。

机器数据采集单元205，被配置为采集得到时间戳距离当前时刻预设时间长度内的所述机器数据。

结合图1至图5描述的根据本发明实施例的同义词挖掘方法和装置可以由计算机设备300来实现。图6为发明一实施例中的一种计算机设备300的硬件结构示意图。

计算机设备300包括存储器301、处理器302及存储在存储器301上并可在处理器302上运行的计算机程序。

在一个示例中，上述处理器302可以包括中央处理器(CPU)，或者特定集成电路(ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器301可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器301可包括HDD、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器301可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器301可在计算机设备300的内部或外部。在特定实施例中，存储器301是非易失性固态存储器。在特定实施例中，存储器301包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器302通过读取存储器301中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行上述实施例中的同义词挖掘方法。

在一个示例中，计算机设备300还可包括通信接口303和总线304。其中，如图6所示，存储器301、处理器302、通信接口303通过总线304连接并完成相互间的通信。

通信接口303，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。也可通信接口303接入输入设备和/或输出设备。

总线304包括硬件、软件或两者，将计算机设备300的部件彼此耦接在一起。举例来说而非限制，总线304可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线304可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

本发明一实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有程序，该程序被处理器执行时实现上述实施例中的同义词挖掘方法。

Claims

1.一种同义词挖掘方法，其特征在于，包括：

获取同义词候选资源集，所述同义词候选资源集包括多条机器数据，所述机器数据由机器语言编写；

识别所述同义词候选资源集中每条机器数据具有的上下文信息，根据预设的特征词词典，提取每条机器数据的上下文信息中的特征词；

对所述同义词候选资源集中具有相同特征词的多条机器数据进行文本分析，得到同义词集合,所述同义词集合包括具有相同特征词的至少两条机器数据所具有的同义词。

2.根据权利要求1所述的方法，其特征在于，所述获取同义词候选资源集，包括：

按照预设的符号集中的符号，将每条机器数据划分为至少一个数据颗粒，所述机器数据包括所述符号集中的至少一个符号，所述数据颗粒包括至少一个词语；

识别每个所述数据颗粒中的对象标识，所述对象标识被所述符号标记；

依据所述对象标识的组成模式，计算所述对象标识的随机性概率；

将所述对象标识相同，且所述对象标识的随机性概率小于或等于预设概率阈值的多条机器数据，作为同义词候选资源集。

3.根据权利要求2所述的方法，其特征在于，所述识别所述同义词候选资源集中每条机器数据具有的上下文信息，根据预设的特征词词典，提取每条机器数据的上下文信息中的特征词，包括：

查找每个所述数据颗粒中的非对象标识,如果所述数据颗粒具有非对象标识,获取所述数据颗粒所在机器数据的上下文信息，获取的上下文信息包括所述数据颗粒、在所述数据颗粒所在机器数据的时间戳与所述数据颗粒之间的数据，查找所述获取的上下文信息中与所述特征词词典匹配的词语，查找到的词语为所述特征词。

4.根据权利要求2或3所述的方法，其特征在于，所述对所述同义词候选资源集中具有相同特征词的多条机器数据进行文本分析，得到同义词集合，包括：

按照预设的符号集中的符号，在所述同义词候选资源集中具有相同特征词的多条所述机器数据内，查找相同的所述对象标识对应的词语，组成同义词集合；

和/或，

按照预设的符号集中的符号和所述机器数据中词语的词性，在所述同义词候选资源集中具有相同特征词的多条所述机器数据内，查找相同的所述对象标识对应的词组，组成同义词集合。

5.根据权利要求2所述的方法，其特征在于，所述同义词候选资源集中的所述机器数据的时间戳之间的时间间隔在预设的时长范围内。

6.根据权利要求5所述的方法，其特征在于，所述同义词候选资源集包括两条所述机器数据，且两条所述机器数据的时间戳相邻；

所述方法还包括：

获取包含相同特征词的多个所述同义词候选资源集对应的同义词集合，合并获取的同义词集合。

7.根据权利要求1所述的方法，其特征在于，在所述获取同义词候选资源集之前，还包括：

采集得到时间戳距离当前时刻预设时间长度内的所述机器数据。

8.一种同义词挖掘装置，其特征在于，包括：

资源集获取单元，被配置为获取同义词候选资源集，所述同义词候选资源集包括多条机器数据，所述机器数据由机器语言编写；

特征词提取单元，被配置为识别所述同义词候选资源集中每条机器数据具有的上下文信息，根据预设的特征词词典，提取每条机器数据的上下文信息中的特征词；

同义词获取单元，被配置为对所述同义词候选资源集中具有相同特征词的多条机器数据进行文本分析，得到同义词集合,所述同义词集合包括具有相同特征词的至少两条机器数据所具有的同义词。

9.根据权利要求8所述的装置，其特征在于，所述资源集获取单元，包括：

颗粒划分模块，被配置为按照预设的符号集中的符号，将每条机器数据划分为至少一个数据颗粒，所述机器数据包括所述符号集中的至少一个符号，所述数据颗粒包括至少一个词语；

对象标识识别模块，被配置为识别每个所述数据颗粒中的对象标识，所述对象标识被所述符号标记；

概率计算模块，被配置为依据所述对象标识的组成模式，计算所述对象标识的随机性概率；

资源集获取模块，被配置为将所述对象标识相同，且所述对象标识的随机性概率小于或等于预设概率阈值的多条机器数据，作为同义词候选资源集。

10.根据权利要求9所述的装置，其特征在于，所述特征词提取单元，包括：

特征词查找模块，查找每个所述数据颗粒中的非对象标识,如果所述数据颗粒具有非对象标识,获取所述数据颗粒所在机器数据的上下文信息，获取的上下文信息包括所述数据颗粒、在所述数据颗粒所在机器数据的时间戳与所述数据颗粒之间的数据，查找所述获取的上下文信息中与所述特征词词典匹配的词语，查找到的词语为所述特征词。

11.根据权利要求9或10所述的装置，其特征在于，所述同义词获取单元，包括：

第一获取模块，被配置为按照预设的符号集中的符号，在所述同义词候选资源集中具有相同特征词的多条所述机器数据内，查找相同的所述对象标识对应的词语，组成同义词集合；

和/或，

第二获取模块，被配置为按照预设的符号集中的符号和所述机器数据中词语的词性，在所述同义词候选资源集中具有相同特征词的多条所述机器数据内，查找相同的所述对象标识对应的词组，组成同义词集合。

12.根据权利要求9所述的装置，其特征在于，所述同义词候选资源集中的所述机器数据的时间戳之间的时间间隔在预设的时长范围内。

13.根据权利要求12所述的装置，其特征在于，所述同义词候选资源集包括两条所述机器数据，且两条所述机器数据的时间戳相邻；

所述装置还包括：

合并单元，被配置为获取包含相同特征词的多个所述同义词候选资源集对应的同义词集合，合并获取的同义词集合。

14.根据权利要求8所述的装置，其特征在于，还包括：

机器数据采集单元，被配置为采集得到时间戳距离当前时刻预设时间长度内的所述机器数据。

15.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述处理器执行所述程序时实现如权利要求1至7中任意一项所述的同义词挖掘方法。

16.一种计算机可读存储介质，其特征在于，其上存储有程序，所述程序被计算机设备执行时实现如权利要求1至7中任意一项所述的同义词挖掘方法。