CN113112414A - 噪声估计方法、噪声估计程序以及噪声估计设备 - Google Patents

噪声估计方法、噪声估计程序以及噪声估计设备 Download PDF

Info

Publication number
CN113112414A
CN113112414A CN202011330924.XA CN202011330924A CN113112414A CN 113112414 A CN113112414 A CN 113112414A CN 202011330924 A CN202011330924 A CN 202011330924A CN 113112414 A CN113112414 A CN 113112414A
Authority
CN
China
Prior art keywords
matrix
noise
elements
unit
decomposition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011330924.XA
Other languages
English (en)
Inventor
此岛真喜子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN113112414A publication Critical patent/CN113112414A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/1654Error detection by comparing the output of redundant processing systems where the output of only one of the redundant processing components can drive the attached hardware, e.g. memory or I/O
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1629Error detection by comparing the output of redundant processing systems
    • G06F11/165Error detection by comparing the output of redundant processing systems with continued operation after detection of the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及噪声估计方法、噪声估计程序以及噪声估计设备。一种噪声估计方法,包括:将第一矩阵分解成系数矩阵和基本矩阵,在该第一矩阵中元素的值由二进制值表示,以及基于第一矩阵与通过组合系数矩阵和基本矩阵而获得的第二矩阵之间的比较结果,来估计第一矩阵的元素中包括噪声的元素。

Description

噪声估计方法、噪声估计程序以及噪声估计设备
技术领域
本文讨论的实施方式涉及噪声估计方法、噪声估计程序以及噪声估计设备。
背景技术
迄今为止,已经提出了用于分解矩阵的技术。例如,根据收集的数据生成的矩阵被分解为系数矩阵和基本矩阵,使得可以分析针对与数据有关的每个预定类别的模式。
引文列表
[专利文献]
[专利文献1]国际专利申请的日本国家公开第2013-526237号
[专利文献2]日本公开特许公报第2017-207577号
[非专利文献]
[非专利文献1]Z.Zhang和T.Li等,“Binary matrix factorization withapplications”,ICDM,2007年。
发明内容
[技术问题]
然而,根据前述技术,出现了在某些情况下难以精确地分解二进制矩阵的问题。
例如,出于分析客户的产品购买模式的目的,在某些情况下,可以由二进制矩阵来表示关于针对每个客户的相应产品是否被购买的历史。在某些情况下,离散值例如对多选查询的响应可以转换成二进制值。
奇异值分解已经被提出作为用于分解实数的连续值的矩阵的技术。在分析上述二进制矩阵时,已经提出了如下技术:该技术用于通过经由贪婪算法将二进制值暂时视为连续值并将连续值返回至二进制值来执行奇异值分解。然而,根据这种技术,难以估计包括在二进制矩阵中的噪声。
根据一个方面,旨在估计二进制矩阵的每个元素中包括的噪声。
[问题的解决方案]
根据一个实施方式,一种噪声估计方法,包括使计算机将第一矩阵分解成系数矩阵和基本矩阵,在该第一矩阵中元素的值由二进制值表示。噪声估计方法包括使计算机基于通过组合系数矩阵和基本矩阵获得的第二矩阵与第一矩阵之间的比较结果,来估计第一矩阵的元素中包括噪声的元素。
[本发明的有利效果]
根据一个方面,可以估计二进制矩阵的每个元素中包括的噪声。
附图说明
图1是用于描述矩阵分解的说明图。
图2是示出二进制矩阵、系数矩阵以及基本矩阵的示例的图。
图3是示出二进制矩阵的示例的图。
图4是示出噪声估计设备的配置示例的框图。
图5是示出噪声估计设备的处理流程的流程图。
图6是示出用于决定秩的处理流程的流程图。
图7是用于描述最佳描述长度的说明图。
图8是示出用于分解矩阵和计算噪声的处理流程的流程图。
图9是示出用于估计并去除包括噪声的元素的处理的流程的流程图。
图10是示出实验中针对每个秩的描述长度的图。
图11是示出实验中的相关因子和召回(recall)因子的图。
图12是示出实验中的交叉验证误差的图。
图13是示出用于通过马尔科夫链蒙特卡洛方法(MCMC)分解矩阵的处理流程的流程图。
图14是用于描述硬件配置示例的图。
具体实施方式
在下文中,将参照附图详细描述根据本发明的噪声估计方法、噪声估计程序以及噪声估计设备的实施方式。所述实施方式不限制本发明。每个实施方式可以在不矛盾的情况下在范围内适当组合。
[实施方式1]
首先,参照图1描述矩阵分解。图1是用于描述矩阵分解的说明图。如图1所示,n×m矩阵V被分解成r×m系数矩阵W和n×r基本矩阵H。当近似地执行分解时,可以假设n×m噪声矩阵e。其中,m、n以及r表示1或大于1的整数。针对计算指定的秩由r表示。
根据本实施方式,矩阵元素的值由二进制值(布尔值)表示。在下面的说明中,这样的矩阵在某些情况下可以被称为二进制矩阵。二进制矩阵的元素的值可以由数值0或1来表示,或者可以由真或假来表示。根据本实施方式,二进制矩阵的元素的值由0或1表示,但是乘法和加法是根据布尔运算规则执行的。二进制矩阵和噪声的相加被设置为2的余数系统。
使用二进制矩阵的分解来分析各种数据。图2是示出二进制矩阵、系数矩阵以及基本矩阵的示例的图。二进制矩阵V1表示客户的产品购买历史。二进制矩阵V1的每一行对应于客户。二进制矩阵V1的每一列对应于产品。当二进制矩阵V1的元素的值为1时,这意指相应的客户已经购买了相应的产品一次或更多次。当二进制矩阵V1的元素的值为0时,这意指相应的客户还没有购买相应的产品。
例如,二进制矩阵V1指示客户A已经购买了产品x和产品z。例如,二进制矩阵V1指示客户B购买了产品y。在二进制矩阵V1中,即使客户已经购买了相同的产品两次或更多次,但是根据布尔运算规则,相关元素的值也为1。
二进制矩阵V1被分解成系数矩阵W1和基本矩阵H1。系数矩阵W1表示针对每个客户的购买模式。基本矩阵H1表示针对每个客户群(segment)的购买模式。
在这种情况下,可以设想,当客户未按照原始购买模式进行购买(例如“购买很少购买的产品”或“由于来自其他人的偶然请求而购买”)时,会产生噪声。出于该原因,当通过从二进制矩阵V1中去除基于系数矩阵W1和基本矩阵H1估计的噪声来生成模型时,可以对每个客户购买哪个产品的可能性进行分析。
如图3所示,目标图像识别的图像可以由二进制矩阵表示。图3是示出二进制矩阵的示例的图。例如,图3中的二进制矩阵V2是通过在行方向上的一个维度上布置指示针对每个像素的信息的值来创建的,所述值是通过从左到右和从上到下执行字符的图像的光栅扫描而获得的,其中,预定数字由不同的写入者所写。
通过分解二进制矩阵V2获得的系数矩阵可以被视为压缩图像的特征量。通过分解二进制矩阵V2得到的基本矩阵可以被视为基础。在二进制矩阵V2被分解时产生的噪声可以被认为是图像的噪声。当基于去除了噪声的二进制矩阵V2生成用于对在图像上显示的手写数字进行聚类的模型时,与没有去除噪声的情况相比,可以提高模型聚类精度。
当图像数据基于灰度8位格式时,像素值在0至255之间的范围内表示。在二进制矩阵中,例如,当像素值为0时,元素的值可以设置为0,并且当像素值不为0时,元素的值可以被设置为1。
当使用通过分解二进制矩阵获得的模型来分析各种数据片段时,精度受到执行分解时指定的秩的影响。用于决定秩的方法被称为模型选择。例如,已经提出了用于根据描述长度评估模型选择的技术(参考文献1:Miettinen等人,“MDL4BMF:Minimum DescriptionLength for Boolean Matrix Factorization”,TKDD,第8卷第4期,2014年10月第18号文章)。
当使用来自原始二进制矩阵的预定秩分解二进制矩阵时,根据本实施方式的噪声估计设备可以去除噪声。因此,提高了使用二进制矩阵进行的数据分析的精度。可以通过包括相关技术方法在内的任何方法来决定秩。
[功能配置]
参照图4描述根据实施方式的噪声估计设备10的配置。图4是示出噪声估计设备的配置示例的框图。如图4所示,噪声估计设备10包括转换单元11、决定单元12、分解单元13、估计单元14、去除单元15、噪声信息16以及分析单元17。
转换单元11将分析目标数据转换成二进制矩阵。例如,转换单元11将数据转换成其中相应元素与以灰度8位格式表示的图像的相应像素对应的矩阵。当对应像素的像素值为0时,转换单元11将元素的值设置为0,并且当对应像素的像素值不为0时,转换单元11将元素的值设置为1。
决定单元12决定秩,在所述秩处描述长度满足预定条件,描述长度基于元素的值由二进制值表示的第一矩阵以及通过分解第一矩阵获得的系数矩阵和基本矩阵。
分解单元13将元素的值由二进制值表示的第一矩阵分解成系数矩阵和基本矩阵。分解单元13根据由决定单元12决定的秩来近似地分解第一矩阵。分解单元13通过如下技术多次分解第一矩阵:利用所述技术,通过分解获得的系数矩阵和基本矩阵不具有唯一性。马尔科夫链蒙特卡洛方法(MCMC)(参考文献2:日本公开特许公报第2019-028896号)是通过分解获得的系数矩阵和基本矩阵不具有唯一性的技术的示例。
估计单元14通过组合系数矩阵和基本矩阵来生成第二矩阵,并且基于第二矩阵与第一矩阵之间的比较结果来估计第一矩阵的元素中包括噪声的元素。估计单元14将第一矩阵的如下元素估计为噪声:所述元素与通过第二矩阵与第一矩阵的2的余数系统的加法而获得的第三矩阵的元素中的值为真的元素相对应。根据本实施方式,1表示真,以及0表示假。
例如,估计单元14将第一矩阵的如下元素估计为噪声:所述元素与第三矩阵的元素中为真的值的比率等于或高于阈值的元素相对应,其中,所述第三矩阵是通过多个第二矩阵中的每一个与第一矩阵的2的余数系统的加法而获得的。通过对由分解单元13获得的系数矩阵和基本矩阵进行组合来获得多个第二矩阵。
根据本实施方式,决定单元12和分解单元13使用参考文献1中描述的MCMC来执行矩阵分解。决定单元12和分解单元13可以通过参考文献3(Nakamura等人,“Formulation ofIsing model for binary matrix factorization”,FIT2017)中描述的方法来执行矩阵分解。
噪声信息16是累积了由估计单元14估计的噪声的信息。估计单元14多次执行噪声估计。每次估计噪声时,估计单元14将估计的噪声累积在噪声信息16中。
去除单元15通过对第一矩阵的元素中由估计单元14估计为噪声的元素的值进行反转来去除噪声。根据本实施方式,去除单元15可以通过位反转来去除噪声。例如,当估计为噪声的元素的值为1时,去除单元15将该元素的值转换成0。例如,当估计为噪声的元素的值为0时,去除单元15将该元素的值转换成1。
分析单元17使用去除了噪声的二进制矩阵来分析数据。例如,基于去除了噪声的二进制矩阵,分析单元17可以生成用于对数据进行聚类的聚类模型,或者可以执行数据异常检测。
[整体处理流程]
使用流程图描述处理流程。首先,参照图5描述总体处理流程。图5是示出噪声估计设备的处理流程的流程图。如图5所示,首先,噪声估计设备10的转换单元11将已经输入的数据(下文中为输入数据)转换成二进制矩阵(步骤S10)。
接着,决定单元12决定用于分解二进制矩阵的秩(步骤S20)。分解单元13根据由决定单元12决定的秩执行矩阵分解和噪声计算(步骤S30)。
估计单元14估计二进制矩阵中包括噪声的元素。去除单元15去除由估计单元14估计的噪声(步骤S40)。当指示噪声去除是否完成的去除完成标志为真时(步骤S50:是),去除单元15输出从中去除了包括噪声的元素的二进制矩阵(步骤S60)。当指示噪声去除是否完成的去除完成标志不为真时(步骤S50:否),噪声估计设备10返回到步骤S20,并且重复处理。在步骤S60之后,分析单元17基于二进制矩阵分析数据(步骤S70)。
以这种方式,噪声估计设备10重复处理,直到噪声去除完成。例如,每当估计单元14估计包括噪声的元素时,当估计为噪声的元素的数量的总和高于阈值时,去除单元15从第一矩阵去除噪声。每当去除单元15去除噪声时,分解单元13进一步分解第一矩阵。每当分解单元13分解第一矩阵时,估计单元14进一步估计第一矩阵的元素中包括噪声的元素。决定单元12可以在由去除单元15进行的上述处理与由分解单元13进行的处理之间再次决定秩,或者可以避免再次决定秩。
[相应处理的细节]
下文描述图5中的相应处理(步骤S20、S30以及S40)的细节。首先,输入数据可以由冗余矩阵表示,并且还假设存在噪声。矩阵是冗余的状态意指:矩阵具有其中矩阵可以被分解成两个或更多个矩阵的结构。
在由转换单元11转换后的n×m二进制矩阵中,分别由m维向量表示的n个实例v1,v2···vn彼此耦合。例如,二进制矩阵可以使用意指转置的T写为V={v1,v2···vn}T
例如,输入数据包括类别数据、离散值数据以及二进制数据。类别数据包括例如查询数据和基因碱基序列。离散值数据包括例如计数数值,例如汽车或人流的计数器值。二进制数据是例如由指示产品是否被购买和产品是否未被购买的两个值表示的数据。转换单元11将输入数据转换成{0,1}。因此,建立了V∈{0,1}n×m
例如,基因碱基序列数据通过包括t、c、g以及a的四种类型的字符的组合来表示。例如,基因碱基序列数据包括"tactagcaatacgcttgcgttcggtggttaagtatgtataatgcgcgggcttgtcgt"和"tgctatcctgacagttgtcacgctgattggtgtcgttacaatctaacgcatcgccaa"。
(来源:UCI机器学习知识库分子生物学(基因启动子序列)数据集(网址:https://archive.ics.uci.edu/ml/datasets/Molecular+Biology+(Promoter+Gene+Sequences)))。
当转换单元11设置t={0,0,0,1}、t={0,0,1,0}、t={0,1,0,0}以及t={1,0,0,0}时,基因碱基序列数据可以被转换成二进制矩阵。例如,转换单元11将“tactagc”转换成{0,0,0,1,1,0,0,0,0,0,1,0,0,0,0,1,1,0,0,0,0,1,0,0,0,0,1,0}。
例如,转换单元11可以将具有响应选项1至5的查询的响应数据转换成二进制矩阵,例如1={0,0,0,0,1}、2={0,0,0,1,0}、3={0,0,1,0,0}……。转换单元11可以通过执行二进制扩展将计数器的值(0或自然数)转换成二进制矩阵。多值数据例如前述图像中的灰度可以通过将除0之外的值设置为1而转换成二进制矩阵。转换单元11可以直接将表示用户动作的数据例如{已执行,未执行}转换成{1,0}。
由于输入数据的特征量是冗余的,并且还可能存在噪声,因此可以假设诸如表达式(1)的格式。
[表达式1]
Figure BDA0002795794470000071
其中,
Figure BDA0002795794470000072
意指根据布尔运算规则的矩阵的乘积。
Figure BDA0002795794470000073
意指2的余数系统的加法。
建立了W∈{0,1]n×r、H∈{0,1]r×m以及e∈{0,1]n×m。在根据布尔运算规则的运算中,0+0=0、0+1=1、1+0=1以及1+1=1成立。在2的余数系统的加法中,0+0=0、0+1=1、1+0=1以及1+1=0成立。存在噪声的元素是e的元素中的值为1的元素。
(秩的决定)
详细描述用于决定秩的处理(图5中的步骤S20)。决定单元12提供用于执行矩阵分解的若干秩候选,并且决定描述长度(DL)最小的秩r0作为最佳秩。当DL相对于秩单调递增时,可以设想,二进制矩阵未遵循假设的模型。在这种情况下,决定单元12可以输出秩决定不可用的结果,或者将DL被计算的秩中的最小秩假设为最佳秩。
图6是示出用于决定秩的处理的流程的流程图。如图6所示,首先,决定单元12接收二进制矩阵V(步骤S201)。决定单元12将秩r的初始值设置为2(步骤S202)。决定单元12按照秩r执行矩阵分解,以获得表达式(2)的格式(步骤S203)。
[表达式2]
Figure BDA0002795794470000081
决定单元12基于通过矩阵分解获得的系数矩阵和基本矩阵来计算描述长度(步骤S204)。例如,决定单元12可以通过参考文献1中描述的方法来计算描述长度。决定单元12如表达式(3)、表达式(4)、表达式(5)以及表达式(6)那样计算描述长度L(V,W,H)。
[表达式3]
L(V,W,H)=L(W)+L(H)+L(V|W,H)…(3)
[表达式4]
Figure BDA0002795794470000082
[表达式5]
Figure BDA0002795794470000083
其中,
Figure BDA0002795794470000084
是二项式系数,建立
Figure BDA0002795794470000085
[表达式6]
Figure BDA0002795794470000086
当针对秩r计算的描述长度最小时(步骤S205:是),决定单元12将设置的秩r指定为最佳秩r0(步骤S206)。当针对秩r计算的描述长度并非最小时(步骤S205:否),决定单元12不改变最佳秩r0
当r不高于2/m时(步骤S207:否),决定单元12将r增加1(步骤S208),并且返回步骤S203以重复处理。当r高于2/m时(步骤S207:是),决定单元12输出r0并结束处理(步骤S209)。
参照图7描述最佳描述长度。图7是用于描述最佳描述长度的说明图。如图7所示,描述长度是相对于秩向下凸的曲线。描述长度的曲线在某些情况下可能非常平缓。当通过基于蒙特卡洛方法的技术(例如MCMC)多次执行矩阵分解时,解不具有唯一性,并且获得针对每次尝试的描述长度的最低值的平均值和标准偏差σ。鉴于以上,决定单元12可以选择描述长度在从最低值的平均值到最低值的平均值+标准偏差σ的范围内的多个秩作为最佳秩r0。决定单元12可以在描述长度在从最低值的平均值到最低值的平均值+标准偏差σ的范围内的秩中选择最小秩。
当通过除蒙特卡洛方法之外的技术执行矩阵分解时,决定单元12可以决定描述长度取最小值的秩作为r0
(矩阵分解和噪声计算)
描述矩阵分解和噪声计算的细节(图5中的步骤S30)。分解单元13根据由决定单元12决定的秩来分解二进制矩阵。分解单元13可以适当地使用决定单元12的矩阵分解的结果。
图8是示出用于分解矩阵和计算噪声的处理的流程的流程图。如图8所示,分解单元13接收二进制矩阵V、秩r0以及尝试计数x1(步骤S301)。分解单元13向表示当前尝试计数的x分配1(步骤S302)。
当秩被设置为r0时,分解单元13通过MCMC对二进制矩阵V执行矩阵分解(步骤S303)。估计单元14如表达式(7)那样计算噪声矩阵e(步骤S304)。
[表达式7]
Figure BDA0002795794470000091
估计单元14将计算的噪声矩阵e累积在噪声信息h中(步骤S305)。例如,噪声信息h可以是其中元素值是多值的矩阵。在这种情况下,每次重复处理时,估计单元14将计算出的噪声矩阵e添加至噪声信息h。
当x并非等于或高于x1时(步骤S306:否),估计单元14将x增加1(步骤S307),并且返回步骤S303以重复处理。当x等于或高于x1时(步骤S306:是),估计单元14输出噪声信息h(步骤S308)。
表达式(7)中的V是第一矩阵的示例。表达式(7)中通过组合W与H获得的矩阵是第二矩阵的示例。表达式(7)中的噪声矩阵e是第三矩阵的示例。
(包括噪声的元素的估计和去除)
描述包括噪声的元素的估计和去除的细节(图5中的步骤S40)。例如,在噪声矩阵e中的值为1的频率高的元素中,可以设想,该值在噪声信息h中也是高的。估计单元14通过使用这种现象来估计二进制矩阵V的元素中包括噪声的元素。
噪声矩阵e、二进制矩阵V以及噪声信息h都是n×m矩阵。出于该原因,例如,噪声矩阵e中的p列q行中的元素对应于二进制矩阵V和噪声信息h中的p列q行中的元素。
图9是示出用于估计并去除包括噪声的元素的处理的流程的流程图。如图9所示,估计单元14接收二进制矩阵V、噪声信息h、单独阈值TH以及总和阈值THsum(步骤S401)。
估计单元14将V的如下元素估计为包括噪声的元素:所述元素与噪声信息h的元素中值高于TH的元素相对应。去除单元15将包括噪声的元素的值反转(步骤S402)。接着,当h的元素的值的总和等于或低于THsum时(步骤S403:是),去除单元15将去除完成标志设置为真(步骤S404)。当h的元素的值的总和并非等于或低于THsum时(步骤S403:否),去除单元15将去除完成标志设置为假(步骤S405)。
如图5所示,噪声估计设备10重复从步骤S20至S40的处理,直到去除完成标志变为真。出于该原因,去除单元15可以在步骤S405或S406之后对噪声信息h进行初始化。
单独阈值TH和总和阈值THsum是预先指定的。单独阈值TH和总和阈值THsum可以是绝对值或表示比率的值。在这种情况下,单独阈值TH可以被视为噪声被决定的次数与尝试计数的比率。总和阈值THsum可以被视为估计为噪声的元素的数量与n×m矩阵的元素数量的比率。
(数据分析)
分析单元17基于二进制矩阵V和/或噪声信息h分析数据,该二进制矩阵V被去除了噪声。例如,当执行异常检测时,分析单元17可以以噪声信息h的元素的值的降序顺序来顺序输出二进制矩阵V的对应元素作为异常元素。
去除单元15可以通过使用标记的测试数据来设置单独阈值TH和总和阈值THsum的初始值的若干候选。此时,分析单元17通过使用从中去除了噪声的二进制矩阵V或执行了矩阵分解或维度压缩的系数矩阵W来执行k重交叉验证以计算交叉验证损失L。
分析单元17选择在以阈值TH的候选中交叉验证损失L最低的阈值去除噪声之后的二进制矩阵,并且将二进制矩阵设置为V0。去除单元15可以从噪声信息h的元素的值中的最高值开始顺序地降低阈值TH,直到由分析单元17计算的交叉验证损失L近似降低到满足预定基准的程度。去除单元15可以将阈值TH设置为固定值,并且去除噪声。
[效果]
如上所述,分解单元13将元素的值由二进制值表示的第一矩阵分解成系数矩阵和基本矩阵。估计单元14基于通过组合系数矩阵和基本矩阵获得的第二矩阵与第一矩阵之间的比较结果,估计第一矩阵的元素中包括噪声的元素。以这种方式,噪声估计设备10基于二进制矩阵的分解结果来估计包括噪声的元素。出于该原因,根据本实施方式,可以精确地分解二进制矩阵。
决定单元12决定描述长度满足预定条件的秩,其中,所述描述长度基于第一矩阵以及通过分解第一矩阵获得的系数矩阵和基本矩阵。分解单元13根据由决定单元12决定的秩来近似地分解第一矩阵。以这种方式,噪声估计设备10决定最佳秩并且分解二进制矩阵以估计噪声。出于该原因,根据本实施方式,可以精确地分解二进制矩阵。
估计单元14将第一矩阵的如下元素估计为噪声:所述元素与通过第二矩阵与第一矩阵的2的余数系统的加法而获得的第三矩阵的元素中值为真的元素相对应。以这种方式,噪声估计设备10可以通过使用与原始二进制矩阵具有相同大小的噪声矩阵来容易地识别包括噪声的元素。
分解单元13通过——通过分解获得的系数矩阵和基本矩阵不具有唯一性——的技术来多次分解第一矩阵。例如,估计单元14将第一矩阵的如下元素估计为噪声:所述元素与第三矩阵的元素中为真的值的比率等于或高于阈值的元素相对应,其中,所述第三矩阵是通过多个第二矩阵中的每一个与第一矩阵的2的余数系统的加法而获得的,所述多个第二矩阵是通过将由分解单元13获得的系数矩阵和基本矩阵彼此组合而获得的。以这种方式,当获得不具有唯一性的多个随机分解结果时,噪声估计设备10可以识别具有成为噪声的高概率的元素。
去除单元15通过反转第一矩阵的元素中由估计单元14估计为噪声的元素的值来去除噪声。以这种方式,噪声估计设备10可以容易地去除噪声。
每当估计单元14估计包括噪声的元素时,当估计为噪声的元素的数量的总和高于阈值时,去除单元15从第一矩阵去除噪声。每当去除单元15去除噪声时,分解单元13进一步分解第一矩阵。每当分解单元13分解第一矩阵时,估计单元14进一步估计第一矩阵的元素中包括噪声的元素。以这种方式,噪声估计设备10可以通过重复噪声去除来提高去除精度。
[实验结果]
(实验1)
示出了使用根据本实施方式的噪声估计设备10的实验结果。首先,在实验1中,二进制矩阵V被用作以5%添加噪声的无噪声二进制矩阵,该无噪声二进制矩阵通过将10×50矩阵与50×10矩阵进行组合而获得。此外,无噪声二进制矩阵是元素值1的比率ρ为50%(即,为1的元素值的比率被设置为50%)的二进制矩阵。在这种情况下,如图10所示,当平均描述长度最低时,秩在10处取最佳值。图10是示出实验中针对每个秩的描述长度的图。
根据依照实施方式描述的方法,作为在前述二进制矩阵V中包括噪声的元素的估计结果,相关因子P和召回因子R如图11所示。图11是示出实验中的相关因子和召回因子的图。如图11所示,由于相关因子P高,因此可以提及的是,将不是噪声的元素估计为包括噪声的元素的错误估计(错误检测)几乎不会发生。
相关因子P和召回因子R计算如下。
相关因子P=(估计噪声中的真实噪声数)/(估计噪声数)
召回因子R=(估计噪声中的真实噪声数)/(真实噪声数)
(实验2)
在实验2中,通过根据实施方式描述的方法从手写数字数据的二进制矩阵中去除噪声(数据获取源:https://archive.ics.uci.edu/ml/datasets/Multiple+Features),并且通过决策树执行图像识别。此时,决定的最佳秩为10。图12示出了决策树学习的10重交叉验证误差。交叉验证误差是从0到1的实数,并且可以提及的是,交叉验证误差越低,识别精度越高。如图12所示,在降噪前为0.32的交叉验证误差在降噪后下降到0.25。
[关于MCMC的补充说明]
噪声估计设备10进行用于通过MCMC分解矩阵的处理。根据本实施方式,噪声估计设备10使用对应于MCMC的类型的模拟退火。通过经由MCMC分解矩阵V得到的系数矩阵W和基本矩阵H不具有唯一性。这是因为满足WXX-1H的规则矩阵X有可能夹在W与H之间。可以设想,例如,通过以100种方式将——通过MCMC尝试了100次矩阵分解而获得的——W和H彼此组合而获得的多个V'彼此相似。多个V'的元素中彼此不相似的元素被认为等同于噪声。
图13是示出用于通过MCMC分解矩阵的处理的流程的流程图。虽然在分解单元13是MCMC的处理主体的情况下提供了描述,但是决定单元12也可以执行MCMC。如图13所示,首先,分解单元13接收n×m二进制矩阵V、温度的初始值T0以及循环的总数itermax(步骤S501)。
分解单元13输入二进制矩阵V,并且通过表达式(8)生成用于矩阵分解的能量函数E(步骤S502)。
[表达式8]
Figure BDA0002795794470000131
分解单元13将任意初始值W0和H0设置为自旋(spin)W和H(步骤S503)。分解单元13根据能量函数计算能量的初始值Eprev,并且设置Emin=Eprev、Wmin=W0以及Hmin=H0(步骤S504)。
分解单元13计算温度T(步骤S505)。例如,分解单元13如T=T0/log(iter)那样计算温度T。分解单元13通过使用W和H来决定用于翻转的自旋候选(步骤S506)。
分解单元13获得自旋被翻转时的能量Eafter,并且设置ΔE=Eafter-Eprev,来以e-ΔE的概率决定采用(步骤S507)。分解单元13输出Wmin和Hmin(步骤S508)。
[数据添加时的处理]
当新数据(实例)vj被添加至输入二进制矩阵V时,噪声估计设备10可以通过使用计算的基本矩阵H、通过MCMC来计算系数矩阵Wj,并且计算与vj相关的ej
由于二进制矩阵V的大小不变,所以当仅添加一个实例时,噪声估计设备10可以重写包括在二进制矩阵V中的最旧的数据(实例)。当存在要添加的大量实例时,噪声估计设备10新创建二进制矩阵V。噪声估计设备10仅将自旋W设置为翻转的目标。在这种情况下,噪声估计设备10可以将H视为固定数,并且执行MCMC。
[系统]
除非以其他方式规定,否则说明书和附图中指示的处理过程、噪声估算过程、具体名称以及包括各种类型的数据和参数的信息可以自由地更改。根据实施方式描述的具体示例、分布、数值等仅仅是示例,并且可以自由地改变。
附图中示出的相应设备的相应部件是功能概念上的部件,并且不一定必须如附图中所示出的那样进行物理配置。例如,相应设备的分布和集成的具体形式不限于附图中所示出的那些形式。例如,根据各种负荷、使用状况等,所有或一些设备可以被配置成在功能上或物理上分布或集成在任何单元中。由相应设备执行的处理功能的全部或任何部分可以通过中央处理单元(CPU)以及要由CPU分析和执行的程序来实现,或者可以通过接线逻辑实现为硬件。
[硬件]
根据前述实施方式描述的各种处理可以通过使计算机执行预先准备的程序来实现。鉴于以上,下面将描述执行具有与前述实施方式的功能相同的功能的程序的计算机(硬件)的示例。图14是用于描述硬件配置示例的图。
如图14所示,噪声估计设备10包括输入和输出接口10a、硬盘10b、随机存取存储器(RAM)10c、只读存储器(ROM)103、CPU 10e以及伊辛机器10f。噪声估计设备10中的相应部分耦接至总线。
输入和输出接口10a是接受来自用户的输入操作的输入装置例如键盘或鼠标,以及输出各种处理结果的输出装置例如显示器。硬盘10b是例如硬盘装置,并且存储用于执行根据上述实施方式描述的各种处理的程序。程序111参考的各种类型的数据也存储在硬盘10b中。当CPU 10e读取程序并且执行各种处理时使用RAM 10c,并且RAM 10c暂时存储各种信息。例如,ROM 103是存储当噪声估计设备10被激活时执行的引导程序等的非易失性存储器。
CPU 10e读取存储在硬盘10b中的程序,并且将读取的程序加载在RAM 10c中并且执行读取的程序,从而执行与转换单元11、决定单元12、分解单元13、估计单元14、去除单元15、噪声信息16以及分析单元17相关的各种处理。程序可以不存储在硬盘装置10b中。例如,噪声估计设备10还可以读取并且执行存储在噪声估计设备10可读的存储介质中的程序。噪声估计设备10可读的存储介质对应于便携式记录介质例如光盘(CD)-ROM、数字多功能盘(DVD)或通用串行总线(USB)存储器、半导体存储器例如闪存、硬盘驱动器等。该程序可以存储在耦接至公共线路、互联网、LAN等的装置中,并且噪声估计设备10可以从该装置读取该程序并执行该程序。
伊辛机器10f是如下装置:所述装置通过模拟退火(SA)执行处理,并且搜索相应比特的组合的组合(基态),其中,利用该组合(基态)获得转换成伊辛格式的成本函数的最低值。

Claims (8)

1.一种噪声估计方法,包括:
将第一矩阵分解成系数矩阵和基本矩阵,在所述第一矩阵中元素的值由二进制值表示;以及
基于所述第一矩阵与通过组合所述系数矩阵和所述基本矩阵获得的第二矩阵之间的比较结果,来估计所述第一矩阵的元素中包括噪声的元素。
2.根据权利要求1所述的噪声估计方法,还包括:
决定秩,其中,在所述秩处描述长度满足预定条件,所述描述长度基于所述第一矩阵以及通过分解所述第一矩阵获得的所述系数矩阵和所述基本矩阵,
所述分解包括:根据通过所述决定而决定的秩来分解所述第一矩阵。
3.根据权利要求1所述的噪声估计方法,其中,
所述估计包括将所述第一矩阵的如下元素估计为噪声:所述元素与通过所述第二矩阵与所述第一矩阵的2的余数系统的加法而获得的第三矩阵的元素中值为真的元素相对应。
4.根据权利要求1所述的噪声估计方法,其中,
所述分解包括通过如下技术多次分解所述第一矩阵:利用所述技术,通过所述分解获得的所述系数矩阵和所述基本矩阵不具有唯一性,以及
所述估计包括估计所述第一矩阵的如下元素的值包括噪声:所述元素与第三矩阵的元素中的为真的值的比率等于或高于阈值的元素相对应,其中,所述第三矩阵是通过多个第二矩阵中的每一个与所述第一矩阵的2的余数系统的加法而获得的,所述多个第二矩阵是通过将由所述分解获得的所述系数矩阵和所述基本矩阵彼此进行组合而获得的。
5.根据权利要求1所述的噪声估计方法,还包括:
通过对所述第一矩阵的元素中通过所述估计被估计为包括噪声的元素的值进行反转来去除所述噪声。
6.根据权利要求5所述的噪声估计方法,其中,
所述去除包括:每当通过所述估计来估计包括噪声的元素时,当被估计为噪声的元素的数量的总和高于阈值时,从所述第一矩阵去除所述噪声,
所述分解包括:每当通过所述去除来去除噪声时,进一步分解所述第一矩阵,以及
所述估计包括:每当通过所述分解来分解所述第一矩阵时,进一步估计所述第一矩阵的元素中包括噪声的元素。
7.一种噪声估计程序,用于使计算机执行包括以下的处理:
将第一矩阵分解成系数矩阵和基本矩阵,在所述第一矩阵中元素的值由二进制值表示;以及
基于所述第一矩阵与通过组合所述系数矩阵和所述基本矩阵获得的第二矩阵之间的比较结果,来估计所述第一矩阵的元素中包括噪声的元素。
8.一种噪声估计设备,包括:
分解单元,被配置成将第一矩阵分解成系数矩阵和基本矩阵,在所述第一矩阵中元素的值由二进制值表示;以及
估计单元,被配置成基于所述第一矩阵与通过组合所述系数矩阵和所述基本矩阵获得的第二矩阵之间的比较结果,来估计所述第一矩阵的元素中包括噪声的元素。
CN202011330924.XA 2020-01-09 2020-11-24 噪声估计方法、噪声估计程序以及噪声估计设备 Pending CN113112414A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-002232 2020-01-09
JP2020002232A JP2021111097A (ja) 2020-01-09 2020-01-09 ノイズ推定方法、ノイズ推定プログラム及びノイズ推定装置

Publications (1)

Publication Number Publication Date
CN113112414A true CN113112414A (zh) 2021-07-13

Family

ID=73059668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011330924.XA Pending CN113112414A (zh) 2020-01-09 2020-11-24 噪声估计方法、噪声估计程序以及噪声估计设备

Country Status (4)

Country Link
US (1) US11507476B2 (zh)
EP (1) EP3848827A1 (zh)
JP (1) JP2021111097A (zh)
CN (1) CN113112414A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082362B (zh) * 2022-08-23 2022-11-08 广州优刻谷科技有限公司 面向元宇宙场景的去噪方法、系统及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4697465B2 (ja) * 2004-11-08 2011-06-08 日本電気株式会社 信号処理の方法、信号処理の装置および信号処理用プログラム
KR101581885B1 (ko) * 2009-08-26 2016-01-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
US8443080B2 (en) 2010-05-06 2013-05-14 Nec Laboratories America, Inc. System and method for determining application dependency paths in a data center
JP5573517B2 (ja) * 2010-09-07 2014-08-20 ソニー株式会社 雑音除去装置および雑音除去方法
US8675720B2 (en) * 2011-06-30 2014-03-18 Intel Corporation Noise estimation filter
CN202721697U (zh) * 2012-07-27 2013-02-06 上海晨思电子科技有限公司 一种无偏估计装置
JP6849388B2 (ja) 2015-10-26 2021-03-24 エーザイ・アール・アンド・ディー・マネジメント株式会社 特異値解析法を用いた電子ノイズ除去法
US9660709B1 (en) * 2015-12-04 2017-05-23 Uurmi Systems Pvt. Ltd. Systems and methods for calculating log-likelihood ratios in a MIMO detector
JP2017207577A (ja) 2016-05-17 2017-11-24 国立研究開発法人産業技術総合研究所 評価システム、評価方法、評価プログラム、及び記録媒体
JP6563858B2 (ja) * 2016-06-02 2019-08-21 株式会社デンソーアイティーラボラトリ 特徴点位置推定装置、特徴点位置推定システム、特徴点位置推定方法、および特徴点位置推定プログラム
US10090920B1 (en) * 2017-03-17 2018-10-02 Ciena Corporation Fiber kerr nonlinear noise estimation
JP6958085B2 (ja) * 2017-08-02 2021-11-02 富士通株式会社 行列分解装置、行列分解方法及び行列分解プログラム

Also Published As

Publication number Publication date
EP3848827A1 (en) 2021-07-14
JP2021111097A (ja) 2021-08-02
US11507476B2 (en) 2022-11-22
US20210216416A1 (en) 2021-07-15

Similar Documents

Publication Publication Date Title
Baumann et al. Reliable estimation of prediction errors for QSAR models under model uncertainty using double cross-validation
Roth et al. The group-lasso for generalized linear models: uniqueness of solutions and efficient algorithms
US20070239415A2 (en) General graphical gaussian modeling method and apparatus therefore
DeBlasio et al. Estimating the accuracy of multiple alignments and its use in parameter advising
CN113112414A (zh) 噪声估计方法、噪声估计程序以及噪声估计设备
JP6136567B2 (ja) プログラム、情報処理装置、及び情報処理方法
JP5522044B2 (ja) クラスタリング装置、パターン判定方法、およびプログラム
Castelli et al. A hybrid genetic algorithm for the repetition free longest common subsequence problem
EP3893159A1 (en) Training a convolutional neural network
CN110472659B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
Gossmann et al. Identification of significant genetic variants via SLOPE, and its extension to group SLOPE
Dehnert et al. A discrete autoregressive process as a model for short-range correlations in DNA sequences
CN117171738A (zh) 一种恶意软件分析方法、装置、存储介质及设备
KR20230043071A (ko) 변이체 병원성 채점 및 분류 그리고 이의 사용
JP6950505B2 (ja) 判別プログラム、判別方法および判別装置
Rao et al. Compressed sensing methods for DNA microarrays, RNA interference, and metagenomics
US20060212230A1 (en) Method and apparatus for extracting relation between genes, and computer product
Li et al. A general framework for biclustering gene expression data
Foo et al. Haplotype frequency inference from pooled genetic data with a latent multinomial model
JP7420148B2 (ja) 学習装置、学習方法及びプログラム
JP2019105870A (ja) 判別プログラム、判別方法および判別装置
CN113505838B (zh) 一种图像聚类方法、装置、电子设备及存储介质
US20230325304A1 (en) Secret decision tree test apparatus, secret decision tree test system, secret decision tree test method, and program
US20230077998A1 (en) Systems and Methods for Smart Instance Selection
CN113344122B (zh) 一种操作流程诊断方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination