CN107133644B

CN107133644B - 数字化图书馆内容分析系统及方法

Info

Publication number: CN107133644B
Application number: CN201710304569.0A
Authority: CN
Inventors: 付佳; 石丹; 闫实; 金松根; 陈新红; 孙常丽
Original assignee: Mudanjiang Medical University
Current assignee: Mudanjiang Medical University
Priority date: 2017-05-03
Filing date: 2017-05-03
Publication date: 2019-04-23
Anticipated expiration: 2037-05-03
Also published as: CN107133644A

Abstract

本发明提出了一种数字化图书馆内容分析方法和系统。该系统包括：信号接收装置，判断装置，第一匹配装置，分类装置，第二匹配装置，实时分享交流装置。该方法包括：信号接收步骤，判断步骤，第一匹配步骤，分类步骤，第二匹配步骤，实时分享交流步骤。通过该系统和方法，能够方便用户多样化的输入，快速提取信息，以及基于不同的内容特点进行建模和分析，从而提高内容分析的速度和准确度。

Description

数字化图书馆内容分析系统及方法

技术领域

本发明涉及内容技术领域，特别涉及一种数字化图书馆内容分析系统及方法。

背景技术

数字化图书馆内容分析方法在现实生活中具有重要的意义。现有技术中面临着海量数据，用户查找分析相关内容往往比较粗糙，得到的结果不尽人意，简单的关键词查找往往漏掉很多重要内容，扩展相关的关键词查找又往往引入大量的噪声，大量浏览又会浪费用户的时间。因此，如何结合内容的特点进行分析和建模，提高内容分析的速度和准确度，是数字化图书馆内容分析面临的主要问题

发明内容

为了解决上述问题，本发明的目的在于提供一种数字化图书馆内容分析系统及方法，能够方便用户多样化的输入，快速提取信息，以及基于不同的内容特点进行二度建模和分析，从而提高内容分析的速度和准确度。

本发明采用的技术方案如下：

一种数字化图书馆内容分析系统，该系统包括：信号接收装置，判断装置，第一匹配装置，分类装置，第二匹配装置，实时分享交流装置；

所述第一匹配装置包括文本装置、语音装置；

所述第二匹配装置包括图片分析装置、字词分析装置、图片字词综合分析装置，其中所述字词分析装置包括中文分析装置和外文分析装置；

所述实时分享交流装置包括记录和评论装置。

优选地，所述信号接收装置，包括获取用户输入信号，所述输入信号包括通过触摸装置输入关键字词信息，或者通过语音输入音频信息；

优选地，所述判断装置，判断获取的输入信号是关键字词信息还是音频信息，并发送给第一匹配装置；

优选地，所述第一匹配装置，接收判断装置发送的结果信息，如果判断装置发送的是关键字词信息，则将关键字词信息发送到第一匹配装置中的文本装置，如果判断装置发送的是音频信息，则将音频信息发送到第一匹配装置中的语音装置，语音装置通过对音频信息进行识别转化为文本信息；根据文本装置中的关键字词信息或语音装置中转化而来的文本信息进行初步查找，得到第一结果，将第一结果发送给分类装置；

优选地，所述分类装置，对第一结果进行信息提取，将第一结果分为以下几类：图片、字词、图片字词综合；

优选地，所述第二匹配装置，分类装置将分类结果分别发送到第二匹配装置中的图片分析装置、字词分析装置、图片字词综合分析装置进行分析查找；

优选地，所述实时分享交流装置包括记录和评论装置，用户在该装置中作记录或评论，可实时上传到服务器，与其他用户共享。

优选地，所述图片分析装置，针对分类结果中的图片进行人工判断，找出最接近的图片作为目标图片，将目标图片通过以下算法和其他图片进行比较，得到一系列相似图片。

优选地，所述字词分析装置，包括分析字词的空间距离大小、存在性、关联度。

优选地，所述图片字词综合分析装置，将图片和字词分别在上述图片分析装置和字词分析装置中进行分析，将分析结果汇总到该装置。

优选地，语音装置通过对音频信息进行识别转化为文本信息。

一种数字化图书馆内容分析方法，该方法包括：信号接收步骤，判断步骤，第一匹配步骤，分类步骤，第二匹配步骤，实时分享交流步骤；

所述第一匹配步骤，包括文本处理、语音处理步骤；

所述第二匹配步骤，包括通过图片分析装置、字词分析装置、图片字词综合分析装置进行分析，其中所述字词分析装置包括中文分析装置和外文分析装置；

所述实时分享交流步骤，包括记录和评论步骤。

优选地，所述信号接收步骤，包括获取用户输入信号，所述输入信号包括通过触摸装置输入关键字词信息，或者通过语音输入音频信息；

优选地，所述判断步骤，通过判断装置判断获取的输入信号是关键字词信息还是音频信息，并发送给第一匹配装置；

优选地，所述第一匹配步骤，第一匹配装置接收判断装置发送的结果信息，如果判断装置发送的是关键字词信息，则将关键字词信息发送到第一匹配装置中的文本装置，如果判断装置发送的是音频信息，则将音频信息发送到第一匹配装置中的语音装置，语音装置通过对音频信息进行识别转化为文本信息；根据文本装置中的关键字词信息或语音装置中转化而来的文本信息进行初步查找，得到第一结果，将第一结果发送给分类装置；

优选地，所述分类步骤，将分类装置接收到的数据对第一结果进行信息提取，将第一结果分为以下几类：图片、字词、图片字词综合；

优选地，所述第二匹配步骤，分类装置将分类结果分别发送到第二匹配装置中的图片分析装置、字词分析装置、图片字词综合分析装置进行分析查找；

附图说明

下面结合附图及实施方式对本发明作进一步详细的说明：

图1为数字化图书馆内容分析系统的示意图。

图2为数字化图书馆内容分析方法的流程图。

图3为数字化图书馆内容分析方法的实施例1。

图4为数字化图书馆内容分析方法的实施例2。

图5为数字化图书馆内容分析方法的实施例3。

图6为数字化图书馆内容分析方法的实施例4。

图7为数字化图书馆内容分析方法的实施例5。

图8为数字化图书馆内容分析方法的实施例6。

图9为数字化图书馆内容分析方法的实施例7。

图10为数字化图书馆内容分析方法的实施例8。

图11为数字化图书馆内容分析方法的实施例9。

图12为数字化图书馆内容分析方法的实施例10。

具体实施方式

本发明公开了一种数字化图书馆内容分析系统，该系统包括：信号接收装置，判断装置，第一匹配装置，分类装置，第二匹配装置，实时分享交流装置；

所述第一匹配装置包括文本装置、语音装置；

所述实时分享交流装置包括记录和评论装置。

优选地，所述图片分析装置，针对分类结果中的图片进行判断，找出最接近的图片作为目标图片，将目标图片通过以下算法和其他图片进行比较，得到一系列相似图片，具体为将计算得到的d(x_ij,x_st)与第一预设阈值相比较，如果在阈值范围内，则为相似图片：

x_ij和x_st分别是相比较的两个像素集，a_l和b_l分别是像素集x_ij和x_st的第l个像素，l为索引，d(x_ij,x_st)为像素集x_ij和x_st中像素的相似性参量，d(a_l,b)为像素a_l和b相似性的参量，d(b_l,a)为像素b_l和a相似性的参量，ω²为最大像素数量。

优选地，所述字词分析装置，包括分析字词的空间距离大小、存在性、关联度，具体为将计算得到的d(x_i,x_j)和与第二预设阈值相比较，如果在阈值范围内，则为相似文本：

w＝aA+bB+cC

其中，w为权重值，x_i,x_j分别为两个不同内容的向量，d(x_i,x_j)为内容相似度，x_iq和x_jq分别为向量的位置，q为索引，A代表单个字词的存在参量，B代表两个字词共同出现的频率，C代表字词的同义词的多少，a,b,c为系数，n为最大索引值。

本发明还公开了一种数字化图书馆内容分析方法，该方法包括：信号接收步骤，判断步骤，第一匹配步骤，分类步骤，第二匹配步骤，实时分享交流步骤；

所述第一匹配步骤，包括文本处理、语音处理步骤；

所述实时分享交流步骤，包括记录和评论步骤。

x_ij和x_st分别是相比较的两个像素集，a_l和b_l分别是像素集x_ij和x_st的第l个像素，l为索引，ω²为最大像素数量，d(x_ij,x_st)为像素集x_ij和x_st中像素的相似性参量，d(a_l,b)为像素a_l和b相似性的参量，d(b_l,a)为像素b_l和a相似性的参量。

w＝aA+bB+cC

其中，w为权重值，x_i,x_j分别为两个不同内容的向量，d(x_i,x_j)为内容相似度，x_iq和x_jq分别为向量的位置，q为索引，n为最大索引值，A代表单个字词的存在参量，B代表两个字词共同出现的频率，C代表字词的同义词的多少，a,b,c为系数。

通过本发明数字化图书馆内容分析的系统和方法，能够根据数据特点初步查找，对结果进行分类建模和精确匹配，以及即时和其他用户进行交流，从而提高了数字化图书馆内容分析的效率和精确度，提高了系统性能，节省了用户时间。

上述实施例阐明的内容应当理解为这些实施例仅用于更清楚地说明本发明，而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims

1.一种数字化图书馆内容分析系统，其特征在于，该系统包括：信号接收装置，判断装置，第一匹配装置，分类装置，第二匹配装置，实时分享交流装置；

所述第一匹配装置包括文本装置、语音装置；

所述实时分享交流装置包括记录和评论装置；

所述信号接收装置，包括获取用户输入信号，所述输入信号包括通过触摸装置输入关键字词信息，或者通过语音输入音频信息；

所述判断装置，判断获取的输入信号是关键字词信息还是音频信息，并发送给第一匹配装置；

所述第一匹配装置，接收判断装置发送的结果信息，如果判断装置发送的是关键字词信息，则将关键字词信息发送到第一匹配装置中的文本装置，如果判断装置发送的是音频信息，则将音频信息发送到第一匹配装置中的语音装置，语音装置通过对音频信息进行识别转化为文本信息；根据文本装置中的关键字词信息或语音装置中转化而来的文本信息进行初步查找，得到第一结果，将第一结果发送给分类装置；

所述分类装置，对第一结果进行信息提取，将第一结果分为以下几类：图片、字词、图片字词综合；

所述第二匹配装置，分类装置将分类结果分别发送到第二匹配装置中的图片分析装置、字词分析装置、图片字词综合分析装置进行分析查找；

所述实时分享交流装置包括记录和评论装置，用户在该装置中作记录或评论，可实时上传到服务器，与其他用户共享。

2.如权利要求1所述的一种数字化图书馆内容分析系统，所述图片分析装置，针对分类结果中的图片进行判断，找出最接近的图片作为目标图片，将目标图片通过以下算法和其他图片进行比较，得到一系列相似图片，具体为将计算得到的d(x_ij,x_st)与第一预设阈值相比较，如果在阈值范围内，则为相似图片，

d(x_ij,x_st)为像素集x_ij和x_st中像素的相似性参量，x_ij和x_st分别是相比较的两个像素集，a_l和b_l分别是像素集x_ij和x_st的第l个像素，l为索引，d(a_l,b)为像素a_l和b相似性的参量，d(b_l,a)为像素b_l和a相似性的参量。

3.如权利要求2所述的一种数字化图书馆内容分析系统，所述字词分析装置，包括分析字词的空间距离大小、存在性、关联度，具体为将计算得到的d(x_i,x_j)和与第二预设阈值相比较，如果在阈值范围内，则为相似文本，

w＝aA+bB+cC

其中，w为权重值，x_i,x_j分别为两个不同内容的向量，d(x_i,x_j)为内容相似度，x_iq和x_jq分别为向量的位置，q为索引，A代表单个字词的存在参量，B代表两个字词共同出现的频率，C代表字词的同义词的多少，a,b,c为系数。

4.如权利要求1至3中任一权利要求所述的一种数字化图书馆内容分析系统，所述图片字词综合分析装置，将图片和字词分别在上述图片分析装置和字词分析装置中进行分析，将分析结果汇总到该图片字词综合分析装置。

5.如权利要求4中任一权利要求所述的一种数字化图书馆内容分析系统，语音装置通过对音频信息进行识别转化为文本信息。

6.一种数字化图书馆内容分析方法，其特征在于，该方法包括：信号接收步骤，判断步骤，第一匹配步骤，分类步骤，第二匹配步骤，实时分享交流步骤；

所述第一匹配步骤，包括文本处理、语音处理步骤；

所述实时分享交流步骤，包括记录和评论步骤；

所述信号接收步骤，包括获取用户输入信号，所述输入信号包括通过触摸装置输入关键字词信息，或者通过语音输入音频信息；

所述判断步骤，通过判断装置判断获取的输入信号是关键字词信息还是音频信息，并发送给第一匹配装置；

所述第一匹配步骤，第一匹配装置接收判断装置发送的结果信息，如果判断装置发送的是关键字词信息，则将关键字词信息发送到第一匹配装置中的文本装置，如果判断装置发送的是音频信息，则将音频信息发送到第一匹配装置中的语音装置，语音装置通过对音频信息进行识别转化为文本信息；根据文本装置中的关键字词信息或语音装置中转化而来的文本信息进行初步查找，得到第一结果，将第一结果发送给分类装置；

所述分类步骤，将分类装置接收到的数据对第一结果进行信息提取，将第一结果分为以下几类：图片、字词、图片字词综合；

所述第二匹配步骤，分类装置将分类结果分别发送到第二匹配装置中的图片分析装置、字词分析装置、图片字词综合分析装置进行分析查找；所述实时分享交流装置包括记录和评论装置，用户在该装置中作记录或评论，可实时上传到服务器，与其他用户共享。

7.如权利要求6所述的一种数字化图书馆内容分析方法，所述图片分析装置，针对分类结果中的图片进行判断，找出最接近的图片作为目标图片，将目标图片通过以下算法和其他图片进行比较，得到一系列相似图片，具体为将计算得到的d(x_ij,x_st)与第一预设阈值相比较，如果在阈值范围内，则为相似图片，

x_ij和x_st分别是相比较的两个像素集，a_l和b_l分别是像素集x_ij和x_st的第l个像素，l为索引，d(x_ij,x_st)为像素集x_ij和x_st中像素的相似性参量，d(a_l,b)为像素a_l和b相似性的参量，d(b_l,a)为像素b_l和a相似性的参量。

8.如权利要求7所述的一种数字化图书馆内容分析方法，所述字词分析装置，包括分析字词的空间距离大小、存在性、关联度，具体为将计算得到的d(x_i,x_j)和与第二预设阈值相比较，如果在阈值范围内，则为相似文本，

w＝aA+bB+cC

9.如权利要求6至8中任一权利要求所述的一种数字化图书馆内容分析方法，所述图片字词综合分析装置，将图片和字词分别在上述图片分析装置和字词分析装置中进行分析，将分析结果汇总到该图片字词综合分析装置。

10.如权利要求9中任一权利要求所述的一种数字化图书馆内容分析方法，语音装置通过对音频信息进行识别转化为文本信息。